查看原文
其他

t 检验用不了?别慌,还有神奇的非参数检验 | 协和八

2016-05-05 田菊 协和八

前面几节,我们了解了如何用数据转换的方法,把不满足正态分布的数据,转换成正态分布的数据,以满足 t 检验的要求。但当你拿着这些方法兴奋地转换着手上的数据,却依然得不到正态分布时,该怎么办呢?

其实,t 检验也不是唯一的统计检验方法。在统计学中,t 检验属于参数检验,除此之外,还有一大类不同于 t 检验的方法,叫做非参数检验方法。

参数检验需要假设总体的分布,比如 t 检验要求总体服从正态分布。根据这一假设,参数检验方法可以算出抽样分布,从而得到 p 值。与参数检验不同的是,非参数检验并依赖于总体的分布。

因此,非参数检验适用于数据不服从正态分布的情况

我们前面讲到 t 检验家族有多个成员,包括单样本 t 检验,成对样本的 t 检验和独立样本的 t 检验(回顾:就是要实用!t 检验的七十二变这些 t 检验成员都有非参数检验的「对应版本」

单样本 t 检验和成对样本的 t 检验对应于威尔科克森符号秩检验,以下简称符号秩检验

独立样本的 t 检验对应于曼-惠特尼 U 检验(也叫做曼-惠特尼秩和检验),下面简称秩和检验

我们先从一个例子开始了解非参数检验的概念。

假设我们需要比较两个班级同学的身高,让这两个班同学混在一起从矮到高排队,如果一班的同学大多排在前面,二班的同学大部分站在后面,直观我们会认为一班的同学比二班的矮。相反,如果每个班的同学都均匀地分散在队列里面,我们会推断两个班的同学身高没有太大差异。

非参数检验就是运用了这种推理,定量地计算出,当原假设成立时,观察到数据特定排列顺序的概率

秩和检验是非参数检验中,用来比较两个独立样本数据的检验方法。秩和检验用 U 统计量(下面会有解释)来检验原假设:两个样本(比如两个班级同学的身高)来自同一分布。假设一班有 n个同学,二班有 n个同学,两两 PK 共有 n1 n种组合, U 统计量表示一班获胜的次数。不难发现,当一班所有人都比二班的任何人高时,U 取最大值 n1 n2;当一班所有人都比二班矮时,U 取最小值 0。

有爱钻牛角尖的同学可能会好奇,如果是平局该怎么办。因为身高是连续变量,理论上不可能有完全相等的情况,但是如果是其它离散形的变量,有可能出现平局的情况,则算为 0.5,加到 U 中。

在这个例子中,如果原假设成立,即两个班级同学身高分布相同,那么随机从每个班中抽取一个同学进行身高 PK,一班获胜的概率应该接近二班获胜的概率,这时 U 统计量应该接近 (想想看为什么?)。

事实上,当样本量比较大的时候,U 统计量会趋近以  为中心的正态分布。而当 U 统计量过于接近最大值或者最小值时,说明两两 PK 中,有一个班经常获胜,那么原假设成立的可能性就比较小(如下图)。

为什么像秩和检验这样的非参数检验,能够适用于非正态分布的数据呢?

原因在于,检验统计量 U 的分布,并不依赖于被比较的数据本身的分布特性。只要两个样本的抽样是独立的,在两个样本来自同一总体的原假设下,不管总体长什么样,U 的分布都只由 n1 和 n的值决定。相反,在 t 检验中,统计检验量 z 的分布是建立在总体服从正态分布这一前提上的(回顾:要想玩转 t 检验,得从这一篇看起

大家可能会好奇,秩和检验的名字是如何来的。数据点在样本中的排名就是“秩”。将数据从小到大排列,最小的数据点秩为 1,第二小的数据点秩为 2,以次类推,最大的数据秩最大,为数据点的数量。因此虽然听起来很深奥,「秩」对应的概念很直观。实际计算中,秩和检验先将两个样本放在一起排列得到每个数据的秩,通过对一组数据的秩求和,而快捷地计算出 U 统计量,所以名字直接也解释了秩和检验的含义。

通过了解秩和检验的原理,你会发现秩和检验相对于 t 检验有一个特点:秩和检验并没有用到一个数据的绝对数值,而只用到了数据的相对大小——秩。在比较两个样本时,只要保持每个样本的秩不变,改变单个数据完全不影响秩和检验的结果(如下图)。举个极端的例子,让身高最矮的同学的身高再减小 50cm 或者让身高最高的同学增加 50cm 不会改变秩和检验的 p 值,因为秩并没有受到影响。这体现了利用秩的非参数检验的一大优点:结论不会受个别极端数据值干扰。

与 t 检验比较,秩和检验的另一大优点不要求数据是连续的,而只要求数据有序

有序就是两个数据能够比较大小。连续的变量(例如身高体重)是有序的,有一些离散的变量也可以是有序的,称为定序变量。生活中我们常常遇到定序变量,比如咱们打完客服电话,常常被问到是不满意,满意,还是非常满意,我们反馈的满意程度就是定序变量。

当我们要比较的两组数据是定序变量时,t 检验就无法派上用场了。定序变量两个相邻等级之间的距离并不是固定的,比如「非常满意」和「满意」之间的差距,与「满意」和「不满意」之间的差距。比较两组不同客户的满意程度是否不一样,就只能用秩和检验而不是 t 检验。

再举一个大家很熟悉、但迷惑性更强的例子,比如疼痛评分中,让病人用等级 1-10 描述自己的疼痛程度,这时疼痛数据虽然是用数字表示,但还是属于定序变量,并不能使用 t 检验。

根据上面的讨论,在比较两个独立样本数据的时候,非参数检验家族中的秩和检验似乎完爆独立样本 t 检验:首先,秩和检验并不要求数据正态;第二,秩和检验还适用于代表等级的定序变量;第三,秩和检验的结果较少的受到极端值的影响,因此比 t 检验更稳健

既然如此,咱们前面的 t 检验不是白学了吗?

非也非也,t 检验应用如此广泛自然有它的优势

首先,如果数据确实来自正态分布的总体,如果用了秩和检验而不是 t 检验,会降低统计功效(回顾:做统计,多少数据才算够?,即实际上有显著差异的两组数据更容易被误判为没有差异。换句话说,同一组数据,用 t 检验得到的 p 值,往往比用秩和检验得到的 p 值小。当然,如果数据并不符合 t 检验的前提,也不能只是因为 p 值较小而使用 t 检验。

t 检验的另外一个优点是直接检验两组数据的均值是否相等,因此结果有着直观的解释,而秩和检验是检验一组数据大于另外一组数据的概率是不是大于 0.5,这并不直观。只有当被比较的两组数据的分布形状完全一样而只是差一个平移的情况下,秩和检验才能等价于检验两组数据的中位数是否相等。从某种意义上,相对于 t 检验,虽然秩和检验的前提条件少了,但是得出的结论也更模糊,果然天下没有免费的午餐啊。

注:文中图片为作者自绘。



回复「统计学」可查看「说人话的统计学」系列合辑,

或点击下方标题可阅读本系列全部文章

>>> 干货 <<<

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯vs频率派:武功到底哪家强?

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?

想玩转t检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有15个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox变换

>>> 自检 <<<

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?

>>> 番外篇 <<<

说人话的统计学:一份迟来的邀请

作者:田菊

编辑:灯盏细辛


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存