依据样本推出总体分布的参数,方法有两种:矩估计和极大似然估计。
参数估计的形式有:点估计和区间估计。
点估计:构造合适的统计量θˆ=θˆ(X1,X2,...Xn)用来估计未知参数θ,θˆ称为参数θ的点估计量。
当给定样本观察值x1,x2,...xn时,θˆ(x1,x2,...xn)称为参数θ的点估计值。
矩估计
矩估计:用样本矩估计总体矩,用样本矩的函数估计总体矩的函数。
理论依据:辛钦大数定理、依概率收敛的性质
矩的概念参见这里。
矩估计步骤
设总体的k个未知参数为θ1...θk,X1,...Xn样本来自总体X,假设总体的前k阶矩存在。
1 建立总体分布的参数与总体矩之间的关系:μi=E(Xi)=hi(θ1...θk),i=1,2…k
2 求各参数关于k阶矩的反函数:θi=gi(μ1...μk),i=1,2…k
3 以样本各阶矩A1,A2..Ak代替总体X的各阶矩μ1...μk,得到各参数的矩估计:θˆ=gi(A1,A2...Ak),i=1,2…k。
在实际应用中,使用中心距也可以。
矩估计不涉及总体分布。
极大似然估计
从这里开始
极大似然是这样开始的。如果瓶子里有黑球和白球,已知有一种球概率是34,但不知道具体是哪种球。采用放回抽样做了一次试验,取了5个球。这5个球的观察结果分别为黑、白、黑、黑、黑。估计一下黑球的概率。
设X={1,取到黑球0,取到白球,则X~B(1,p)。p为黑球的概率。p的可能取值是p=14,p=34。抽取容量为5的样本X1,X2,...X5,观察值为1,0,1,1,1。
当p=14,出现本次观察结果的概率是(14)434=31024。
当p=34,出现本次观察结果的概率是(34)414=811024。
811024>31024,所以p=34更有可能。于是p^=34。
说明两点。
1 这个容量为n的样本,是服从B(n,p),p是未知参数。依据这个样本出现概率最大的时候,p的取值,作为p的估计值,叫做p^。
2 因为样本是独立抽样,所以样本出现最大概率表示为∏ni=nP(Xi),每个事件发生概率的乘积,称为似然函数。
依据这两点,推广为一般的定义。
极大似然定义
设离散型总体X~p(x;θ),θ∈一个定义域。X1,X2,...Xn为样本,观察值为x1,x2,...xn,则事件{X1=x1,X2=x2...Xn=xn}发生的概率为似然函数:L(θ)=∏ni=1p(xi;θ)。
极大似然原理:L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)。当似然函数取得最大值时候的参数θ,就是未知参数θ的估计值。
θ^(x1,x2...xn)称为θ的极大似然估计值。相应的统计量θ^(X1,X2..Xn)称为θ的极大似然估计量(MLE)。
设连续型总体X概率密度函数为f(x;θ),θ∈一个定义域。X1,X2,...Xn为样本,观察值为x1,x2,...xn,则样本在观察值领域发生的概率为似然函数:L(θ)=∏ni=1f(xi;θ)。
极大似然原理:L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)。当似然函数取得最大值时候的参数θ,就是未知参数θ的估计值。
说明:
1 未知参数可能不是一个,设为θ=(θ1,θ2...θn)。
2 求L(θ)的最大值时,可转换为求lnL(θ)的最大值,lnL(θ)称为对数似然函数。利用偏微分解得θ^i,i=1,2…k。
3 若L(θ)是关于某个θi的单调递增(减)函数,则θi的极大似然估计为θi的最大(小)值(与样本有关)。
4 若θ^是θ的极大似然估计,则g(θ)的极大似然估计为g(θ^)。
极大似然估计步骤
1 找到分布律或者概率密度函数。
2 写出极大似然函数L(θ)。
3 观察L(θ)是关于未知变量的单调函数吗?如果是,则根据单调性找到L(θ)取最大值时候的参数值。如果不是,判断函数对未知变量是否容易求导,选择是直接对原函数求导还是先求对数再求导。导函数为0的点就是参数的估计值。
比较
比较项 | 矩估计 | 极大似然估计 |
---|---|---|
原理 | 辛钦大数定理;依概率收敛的性质 | 样本出现概率最大 |
计算方法 | 联立方程组;有几个变量需要几个方程 | 微分/偏微分 |
特点 | 与分布无关,计算矩或者中心矩 | 根据分布函数或者概率密度函数建立似然函数 |
条件 | 需要k阶矩存在 | 需要似然函数的导函数存在或者具有单调性 |
估计量的评价准则
无偏性准则
若参数θ的估计量θ^(X1,X2...Xn),满足E(θ^)=θ,则称θ^是θ的无偏估计量。
若E(θ^)≠θ,则|E(θ^)−θ|称为估计量θ^的偏差。
若limn−>+∞E(θ^)=θ,则称θ^是θ的渐进无偏估计量。
无偏估计量的统计意义是指在大量重复试验下,由θ^(X1,X2...Xn)给出的估计平均恰是θ。从而保证了θ^没有系统误差。
纠偏方法
如果E(θ^)=aθ+b,其中a,b是常数,且ane0,则1a(θ^−b)是θ的无偏估计。
B2=n−1nS2
有效性准则
定义
设θ^1,θ^2是θ的两个无偏估计,如果D(θ^1)≤D(θ^2),对一切定义域的θ都成立,且不等号至少对定义域内的某一个θ成立,则称θ^1比θ^2有效。
方差较小的估计量是一个更有效的估计量。
均方误差准则
设θ^是θ的点估计,且方差存在,则称E(θ^−θ)2是θ^的均方误差,记为Mse(θ^)。
若θ^是θ的无偏估计,则有Mse(θ^)=D(θ^)。
设θ^1,θ^2是θ的点估计,如果Mse(θ^1)<Mse(θ^2),对定义域内的θ都成立,则称在均方误差准则下,θ^1要优于θ^2。
相合性准则
设θ^(X1,X2...Xn)为参数θ的估计量,若对于任意定义域内的θ,当n−>+∞,θ^n依概率收敛于θ,则称θ^n为θ的相合估计量或一致估计量。
也就是说:对∀ε>0,有limn−>+∞P{|θ^−θ|≥ε}=0成立。
总结
四个准则分别从期望、方差、差平方的期望、极限四个角度做了评价。简单概括是:无偏性:E(θ^)=θ;有效性:D(θ^)尽可能小;均方误差准则:E(θ^−θ)2尽可能小;相合性准则: limn−>+∞P{|θ^−θ|≥ε}=0
练习
1 对于任何分布,E(X¯¯¯)=E(X):样本均值的数学期望等于总体的数学期望;E(S2)=D(X):样本方差的数学期望等于总体的方差。
2 E[(X−c)2]=D(X)+(E(X)−c)2
3 D(X)=E(X2)−[E(X)]2