1.似然与概率
非正式场合,似然(likelihood function/likelihood)与概率(probability)几乎是一对同义词,但统计学中概念不同。
- 似然:已知结果,预测产生该结果的可能环境参数,如:L(θ∣x)L(\theta|x)L(θ∣x)。
- 概率:已知环境参数,预测发生某种结果可能性,如:P(x∣θ)P(x|\theta)P(x∣θ)。
其中:
xxx:结果。
θ\thetaθ:环境参数。
当结果与环境参数相互对应时,似然的值=概率的值,即:L(θ∣x)=P(x∣θ)L(\theta|x) = P(x|\theta)L(θ∣x)=P(x∣θ)。
2.似然函数的最大值
- 似然函数值大含义:在该环境参数θ\thetaθ下产生该结果xxx的可能性大。
- 最大值求法:似然函数对环境参数θ\thetaθ求导,导数等于0处似然值最大。
- 最大似然估计(MLE):似然求导,导数为0时的环境参数θ\thetaθ。
- 问题:n元变量,多项乘积求导难。
3.对数化似然函数
L=∏i=1NpiL=\prod_{i=1}^N{p_i}L=∏i=1Npi
log(L)=log(∏i=1Npi)=∑i=1Nlog(pi)\log(L)=\log(\prod_{i=1}^N{p_i})=\sum_{i=1}^N\log(p_i)log(L)=log(∏i=1Npi)=∑i=1Nlog(pi)
- 意义:便于求导。
- 问题:复杂问题,隐变量难求导。
4.EM算法
- 意义:求含有隐变量时,似然最大环境变量。
- EM算法(Expectation-maximization algorithm,最大期望算法/期望最大化算法)步骤:
- 计算期望(E):利用隐变量现有估计值,计算其最大似然估计值;
- 最大化(M):最大化E步上求得的最大似然值 ,计算参数值。
- M步上找到的参数估计值用于下一个E步计算中,这个过程不断交替进行。
5.似然比检验
- 似然比检验(likelihood ratio test, LRT)含义:检验 某个假设(或约束) 是否有效。
- 思想:加上有效约束 不应引起 似然函数的最大值的大幅度降低。
- 实质:比较有约束条件下的似然函数最大值 与 无约束条件下的似然函数最大值(比值 符合卡方分配)。
- 基本思想:
- 已知:来自密度函数f(X;θ)f(X;\theta)f(X;θ)总体的 n个观察值(x1x_1x1,x2x_2x2,…,xnx_nxn)组成随机样本;θ\thetaθ为未知参数。
- 假设:
H0H_0H0:θ=θ0\theta=\theta_0θ=θ0
H1H_1H1:θ≠θ0\theta\neq\theta_0θ=θ0
α\alphaα:检验水准
λ=似然函数在θ=θ0处的值似然函数在θ=θ(极大点)处的值\lambda=\frac{似然函数在\theta=\theta_0处的值}{似然函数在\theta=\theta(极大点)处的值}λ=似然函数在θ=θ(极大点)处的值似然函数在θ=θ0处的值(服从卡方分布) - 统计推断:
当λ≤λ0\lambda\leq\lambda_0λ≤λ0时,拒绝H0H_0H0,
当λ>λ0\lambda>\lambda_0λ>λ0时,不拒绝H0H_0H0。
其中,P(λ≤λ0)=αP(\lambda\leq\lambda_0)=\alphaP(λ≤λ0)=α。
参考:似然比检验 LRT