你的位置:耀世娱乐 > 耀世娱乐介绍 >

人工智能之数学基础:概率论中的样本分布

本文重点

在概率论与数理统计中,样本分布是一个核心概念,它为我们提供了从总体中抽取的样本数据的概率分布特征,是进行统计推断和假设检验的基础。

样本的二重性----数的属性和随机变量的属性

假设 X1, X2, …, Xn是总体X的样本,在一次具体的观测或试验中,它们是一批测量值,是已经取到的一组数。比如说测量物体的长度,样本X1, X2, …, Xn可能是(10,10.01,....,10.03),这就是说,样本具有数的属性。由于在具体试验或观测中,受各种随机因素的影响,在不同试验或观测中,样本取值可能不同,也就是说每次试验获取到的样本都不同,有的时候样本X1, X2, …, Xn可能是(10,10.01,....,10.03),而有的时候样本X1, X2, …, Xn可能是(10.03,10.01,....,10),因此,当脱离特定的具体试验或观测时,我们并不知道样本 X1,X2,…,Xn 的具体取值到底是多少。因此, 可将样本看成随机变量。所以说样本又具有随机变量的属性。

随机样本

在概率统计理论,随机过程,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布,这个之前介绍过。

什么是随机样本呢?如果在相同条件下对总体X进行n次重复、独立观测,就可以认为所获得的样本X1,X2,…,Xn是n个独立且与总体X有同样分布的随机变量。也就是每次的观测xi都是一个随机变量,这个随机变量的分布和总体的分布是一样的。

在统计文献中,称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量。

样本分布的定义

样本分布,简而言之,就是从总体中抽取容量为n的样本后,这n个样本观测值的概率分布。这里的总体,指的是研究对象的全体,它可以是有限的,也可以是无限的,但每一个个体都是总体中的一个可能观察值。而样本,则是从总体中随机抽取的一部分个体,用于代表总体进行研究和推断。

样本分布与总体分布既有联系又有区别。总体分布描述了总体中所有个体观察值的概率分布规律,它通常是未知的,但可以通过理论假设或有限数据来推测。而样本分布,则是基于实际抽取的样本数据得到的,它反映了样本的特征,并且会因为抽样的随机性而产生波动。尽管如此,当样本容量足够大时,样本分布会趋近于总体分布,这是大数定律和中心极限定理所揭示的重要规律。

我们刚刚介绍了随机样本,当样本满足随机样本的时候,我们认为随机样本是由n个随机变量X1,X2,...,Xn组成的,其中的Xi是一个随机变量,那么这个样本可以认为形成了一个n维随机向量,且每个Xi都服从同一个概率分布,这个分布也就是上述所说的总体分布。

那么我们就可以研究其联合分布了。假设总体X具有概率密度函数f(x), 因样本X1,X2,…,Xn独立同分布于X, 故, 样本的联合概率密度函数为

样本分布的应用

参数估计:

参数估计是统计推断的重要任务之一,它旨在根据样本数据估计总体参数的值。样本分布为我们提供了估计总体参数的有效方法。例如,我们可以利用样本均值的分布来估计总体均值,利用样本方差的分布来估计总体方差等。在参数估计中,我们通常需要构造点估计量和区间估计量。点估计量是一个具体的数值,用于估计总体参数的值;而区间估计量则是一个区间,用于表示总体参数的可能取值范围。样本分布为我们提供了构造这些估计量的理论基础。

假设检验:

假设检验是统计推断的另一重要任务,它旨在根据样本数据检验关于总体参数的某个假设是否成立。样本分布在假设检验中发挥着关键作用。在假设检验中,我们通常需要构造一个检验统计量,并根据样本数据计算该统计量的值。然后,我们将该统计量的值与某个临界值进行比较,以决定是否拒绝原假设。样本分布为我们提供了确定临界值和计算检验统计量概率分布的方法。

方差分析和回归分析:

方差分析和回归分析是统计学中常用的两种多元分析方法,它们都依赖于样本分布的理论。在方差分析中,我们需要比较不同组之间的均值差异是否显著。样本分布为我们提供了构造F统计量和进行假设检验的方法。在回归分析中,我们需要估计回归系数并检验其显著性。样本分布为我们提供了构造t统计量和进行假设检验的方法。