先介绍几个相关的数学概念,然后通过实例说明拟合优度
1 Pearson相关系数
皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量,相关系数用r表示。
r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
2 泊松分布
泊松分布(Poisson distribution),台译卜瓦松分布,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。泊松分布是以18~19 世纪的法国数学家西莫恩•德尼•泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。
泊松分布是二项分布的特例,如果某些现象发生的概率很小,且样本例数很大,则二项分布逼近泊松分布。
3 二项分布
4 卡方分布
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个卡方分布。概率密度函数与曲线图如下,其中γ是伽玛函数:
5 拟合优度GOF
拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R^2。R^2的取值范围是[0,1]。R^2的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R^2的值越接近0,说明回归直线对观测值的拟合程度越差。
假设检验问题就是通过从有关总体中抽取一定容量的样本,利用样本去检验总体分布是否具有某种特性。假设检验问题大致分为两大类:
1. 参数型假设检验: 即总体的分布形式已知(如正态、指数、二项分布等),总体分布依赖于未知参数(或参数向量), 要检验的是有关未知参数的假设。
2. 非参数型假设检验: 如果总体分布形式未知,此时就需要有一种与总体分布族的具体数学形式无关的统计方法,称为非参数方法。例如,检验一批数据是否来自某个已知的总体,就属于这类问题。
常用的非参数假设检验方法有:符号检验、符号秩和检验、秩和检验及Fisher 置换检验和拟合优度检验。本文只对拟合优度检验做深入介绍。
5.1 概念介绍
拟合优度检验问题的提法如下:设有一个一维或多维随机变量X,令X0,…, Xn为总体X中抽取的简单样本,F是一已知的分布函数。要利用样本X0,…, Xn检验假设:
H0:r.v.X的分布为F
导出这种假设检验的想法大致如下:设法提出一个反映实际数据X0,…,Xn与理论分布F偏差的量D = D(X0,…,Xn; F)。如果D较大,如D>=C,则认为理论分布F与数据X0,…,Xn不符,因而否定H0。
一般来说,理论和实际没有截然的符合或不符合。更恰当的提法是实际数据与理论分布符合的程度如何?因此通常对H0 的检验不是以“是”或“否”来回答,而是提供一个介于0和1之间的数字作为回答,即用此数作为符合程度的度量刻画,就具体样本算出D之值,记为d0。d0越接近1,表示样本与理论分布拟合的越好,因而原假设越可信。反之,它越接近0,则原假设H0越不可信。如果它低到指定的水平α之下,则就要否定H0了。
5.2 Pearson X2检验
数理统计的两个主要形式就是参数估计和假设检验,拟合优度检验属于假设检验。假设检验根据样本分布族的数学形式已知与否,可分为参数假设检验和非参数假设检验,作为非参数假设检验之一的拟合优度检验,又是检验理论分布假设的重要方法。重点介绍时下讨论最多的拟合优度方法之一:Pearsonχ2检验。