响石潭
医学硕士,不为良相则为良医,不为良医则为良相。
t分布是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特(Gosset)1908年在以笔名“Student”发表的一篇论文中推导的一种分布。 (一)t分布的意义与特点 前一部分讲到正态分布的总体方差已知情况下,样本平均数的分布为正态分布,其两个参数为μ, 上式可见,t分布与σ无关而与n一1(自由度)有关,t分布的自由度(符号v或df表示)一般为n-1,即样本容量减1。自由度是指任何变量中可以自由变化的数目。是t分布的参数v,因为v代表t分布中独立随机变量的数目。故曰自由度。 t分布的特点可归纳如下: ①t分布的平均值为0。 ②是对于平均值0对称的分布,分布左侧t为负值,分布右侧 t为正值。 ⑧t变量取值在-∞一+∞之间。 ④当样本容量趋于∞时,t分布为正态分布,方差为1,而当n-1大于30以上时,t分布接近正态分布,方差大于1,随n-1之增大而方差渐趋于1,当n-1<30时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布中间部分低面分布的尾部较高,(见图5—9) 图5-9 标准正态分布与t分布 (二)t分布表的使用 t分布的形态随自由度而变化,它有一族分布,因而不能像标准正态曲线那样,编制一个详细的表。但为应用方便,一般t分布表只列出不同自由度时某些概率下的t值。该表中所列的值是由‘分布函数计算得到的。附表2是常用的t分布表。该表左列为自由度,最上一行是指不同自由度下t分布两尾部端的概率,分别为 0.5,0.4,0.3,0.2,0.1,0.05,0.01,0.001....等,这些概率是指某一t值时,t分布两尾部端概率的和,而表的最下一行标明的是单侧界限,即从某t值以下t分布尾部一端的概率,因而单侧概率是双侧概率的一半见下图5—10。 图5—10 df=20时t分布的双侧概率 表中所列的值为t值,它随自由度及概率不同而变化。例如df=20,最大t值的概率为0.05(双侧概率)t值为2.086,意思是在t小于-2.086以下的概率与t大于 2.086以上的概率和为0.05亦即该两部分尾端的面积和与总面积之比率为0.05。双侧概率常写作tα/2,上例t .05/2=2.086。单侧概率则只计算一侧尾部的概率,故单侧概率为双侧概率的一半,常写作tα,上例则可写作t .025=2.086。若概率为.01时t .01/2=2.845, t .01=2.845,若自由度为30时,t .01/2 =2.750它相差很小,但t值是随自由度的变化而变化的。 以上是已知自由度及概率查t值,有时常常要根据已知的自由度与t值,查相应的概率。例如df=17,t=2.567,求该t值双侧概率,查表知其双侧概率为0.02,t=±2.567之间的概率为:1— 0.02=0.98。有时所查t值,不恰与某概率的t值相等,这时可取近似的概率值。例如df=17,t=3.00,而表中没有相应的概率,因 t .001/2=3.965,t .01/2=2.898可以用近似的.0l作为t=3.00的概率,常写作p< .0l,需要精确些计算,可用直线内插法: 设t=3.00的双侧概率为x,内插计算,可列下式: 解x=0.00881 即t=3.00时其双侧概率为0.00881或写作: t0.00881/2=3.00。 从t值表可查得自由度df=30的情况下,在0.05概率时,t= 2.042,而正态表相同概率时Z=1.96,二者相差甚微,当df→∞时,t值表所列不同概率下的t值与正态表相应概率下的Z值完全相同。故可知当n→∞时,t分布的极限为正态分布。 (三)方差未知时,样本平均数的分布 1.总体分布为正态,当其方差(σ2)未知时,样本平均数的分布为t分布。 从一个正态分布的总体中,每次抽取容量为n的样本,计算平均值,由于总体方差未知,这时,样本平均数的分布不是正态分布而是t分布,t分布的形式随样本容量n的变化而变化。这无限多个样本平均数的平均数就是总体平均数μ,而平均数分布的标准差(也称标准误)与样本本身的标准差有下述关系: 总体分布为正态而总体方差未知,这种情况,在心理和教育的研究中出现较多,因而t分布的应用比较多。 2.当总体分布为非正态而其方差又未知时,若满足n>30这一条件样本平均数的分布,近似为t分布。据前述,当t分布的自由度为30时,t分布与正态分布十分接近,故此时样本平均数的分布可视为渐近正态分布。这就是说,当n>30时,应用正态表计算概率(近似值)或应用t分布表计算概率(较精确值)都可以。因为总体方差未知,其标准误的计算,可用样本方差作为总体方差的估计值。其式如5—16式。 除样本平均数的分布在一定条件下遵从t分布外,σ2未知时两样本平均数之差的分布、样本相关系数的分布、回归系数的分布在一定条件下也遵从t分布。 |