响石潭 给我留言 | 地图 | 日志 | 帮助
医学统计
什么是t分布?
来源:响石潭 日期:2010-05-24 08:09:38 标签:医学统计 中医

t分布是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特(Gosset)1908年在以笔名“Student”发表的一篇论文中推导的一种分布。

()t分布的意义与特点

前一部分讲到正态分布的总体方差已知情况下,样本平均数的分布为正态分布,其两个参数为μ, 。但当σ2未知时,分布是什么?当总体方差未知时,如果以样本的方差S2作为总体σ2的估计值,这样,每取一个样本,便可计算一个S2S,当样本容量小于30时,样本方差及标准差的分布不是正态分布,而是偏态分布,而 也是偏态分布,那么每个样本的统计量 分布是怎样的呢,高赛特发现,当样本容量n→∞时,它是正态分布,当n>30以上时接近正态分布,当n<30时,此分布不接近正态分布。而是具有左右对称,高狭峰的分布,且分布形状随样本容量n1的变化而变化的一族分布。这就是t分布。

                         

上式可见,t分布与σ无关而与n1(自由度)有关,t分布的自由度(符号vdf表示)一般为n-1,即样本容量减1。自由度是指任何变量中可以自由变化的数目。是t分布的参数v,因为v代表t分布中独立随机变量的数目。故曰自由度。

    t分布的特点可归纳如下:

    t分布的平均值为0

    ②是对于平均值0对称的分布,分布左侧t为负值,分布右侧 t为正值。

    t变量取值在-∞+之间。

④当样本容量趋于时,t分布为正态分布,方差为1,而当n-1大于30以上时,t分布接近正态分布,方差大于1,随n-1之增大而方差渐趋于1,当n-1<30时,t分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布中间部分低面分布的尾部较高,(见图59)

5-9  标准正态分布与t分布

()t分布表的使用

t分布的形态随自由度而变化,它有一族分布,因而不能像标准正态曲线那样,编制一个详细的表。但为应用方便,一般t分布表只列出不同自由度时某些概率下的t值。该表中所列的值是由‘分布函数计算得到的。附表2是常用的t分布表。该表左列为自由度,最上一行是指不同自由度下t分布两尾部端的概率,分别为 05040302010050010001....等,这些概率是指某一t值时,t分布两尾部端概率的和,而表的最下一行标明的是单侧界限,即从某t值以下t分布尾部一端的概率,因而单侧概率是双侧概率的一半见下图510

510  df=20t分布的双侧概率

表中所列的值为t值,它随自由度及概率不同而变化。例如df20,最大t值的概率为005(双侧概率)t值为2086,意思是在t小于-2086以下的概率与t大于 2086以上的概率和为005亦即该两部分尾端的面积和与总面积之比率为005。双侧概率常写作tα/2,上例t .0522086。单侧概率则只计算一侧尾部的概率,故单侧概率为双侧概率的一半,常写作tα,上例则可写作t .0252086。若概率为.01t .0122845 t .01=2845,若自由度为30时,t .01/2 2750它相差很小,但t值是随自由度的变化而变化的。

以上是已知自由度及概率查t值,有时常常要根据已知的自由度与t值,查相应的概率。例如df17t2567,求该t值双侧概率,查表知其双侧概率为002t±2567之间的概率为:1 002098。有时所查t值,不恰与某概率的t值相等,这时可取近似的概率值。例如df17t300,而表中没有相应的概率,因 t 00123965t 0122898可以用近似的.0l作为t300的概率,常写作p< 0l,需要精确些计算,可用直线内插法:

t300的双侧概率为x,内插计算,可列下式:

   

x000881

t300时其双侧概率为000881或写作:

t0008812=300

t值表可查得自由度df=30的情况下,在005概率时,t 2042,而正态表相同概率时Z196,二者相差甚微,当df→∞时,t值表所列不同概率下的t值与正态表相应概率下的Z值完全相同。故可知当n→∞时,t分布的极限为正态分布。

 ()方差未知时,样本平均数的分布

1.总体分布为正态,当其方差(σ2)未知时,样本平均数的分布为t分布。

从一个正态分布的总体中,每次抽取容量为n的样本,计算平均值,由于总体方差未知,这时,样本平均数的分布不是正态分布而是t分布,t分布的形式随样本容量n的变化而变化。这无限多个样本平均数的平均数就是总体平均数μ,而平均数分布的标准差(也称标准误)与样本本身的标准差有下述关系:

                 (516)

    ,因为,每个样本的标准差不同,故样本平均数分布的标准误也不同, 只是 的估计值。亦可写作

总体分布为正态而总体方差未知,这种情况,在心理和教育的研究中出现较多,因而t分布的应用比较多。

2.当总体分布为非正态而其方差又未知时,若满足n>30这一条件样本平均数的分布,近似为t分布。据前述,当t分布的自由度为30时,t分布与正态分布十分接近,故此时样本平均数的分布可视为渐近正态分布。这就是说,当n>30时,应用正态表计算概率(近似值)或应用t分布表计算概率(较精确值)都可以。因为总体方差未知,其标准误的计算,可用样本方差作为总体方差的估计值。其式如516式。

            

除样本平均数的分布在一定条件下遵从t分布外,σ2未知时两样本平均数之差的分布、样本相关系数的分布、回归系数的分布在一定条件下也遵从t分布。


© 响石潭医生 始于2008隆冬 ChinaDoctor 中国▪四川省古蜀不可斋 进入响石潭前必读 蜀ICP备08110769号