要比较三组数据，t检验还能用吗？| 协和八

Original 2016-08-11 田菊协和八

小编按：统计分析的陷阱真是让人防不胜防，学了这么久 t 检验，怎么还有这么大一个坑等着我们！快来一起填坑吧！

▷►►►

我们前面系统地梳理了一下 t 检验的内容，把 t 检验家底摸了个清。熟练掌握了 t 检验的你也许以为已经走遍天下都不怕了，当你有这种想法时，就要小心掉到新的坑里面。

咱们先请出我们的蓝精灵朋友们，看看还有哪些不能掉进去的坑。

蓝精灵食堂里面有三个做包子的师傅，康师傅（不做牛肉面改做包子了）、王师傅和格格巫，蓝精灵们觉得有时候吃到的包子大，有时候吃到的包子小，于是就怀疑这差别是不是由于出自不同的包子师傅之手。
有了上次抓格格巫偷工减料的经验，蓝笨笨自信满满地跳出来说，只要用 t 检验就可以知道怎么回事了。
为了帮大家理清思路，蓝笨笨分析道：
「我们的原假设应该是三位师傅做出来的包子的平均质量没有差别，备择假设是至少有一位师傅包子的质量和其它人不一样。」
于是蓝笨笨提议，随机抽取从每位师傅制作的包子里面随机抽取二十个样本，方便起见康师傅的包子样本是 A 组，王师傅的是 B 组，格格巫的是 C 组。
蓝笨笨继续说道，如果原假设是正确的，那么分别将 A 和 B 组，B 和 C 组，A 和 C 组的包子样本两两进行 t 检验，应该都没有统计显著性，即 p 值都应该小于 0.05；而如果有其中任何一组有显著性差异，就可以拒绝原假设。

乍一听，蓝笨笨的建议确实很有道理。但是它的推理却掉进一个陷阱，这个陷阱就隐藏在 p 值的含义里面——我们用 p 值小于 0.05 作为统计显著性的阈值，是为了控制第一类错误，也称为假阳性错误（即在实际没有显著性差别的情况下检测出显著性差别）的概率在 5% 以内。

也就是说，即使两组数据并没有什么不同，仅仅是因为随机抽样导致的误差，做 100 次实验，也有 5 次可以检测出有显著不同。

试想这样一种情况，A、B、C 三组其实都是从康师傅的制作的包子里面抽取的随机样本，理论上除了随机抽样导致样本有一些随机浮动之外，没有本质差别。当我们对 A、B、C 三组进行两两比较的时候，理想的结果应该是没有任何统计显著性。如果有的话，就是假阳性。

下面我们来推理一下发生假阳性（即 AB、BC、AC 两两比较至少有一次检验结果是显著不同）的概率。

按照惯例我们用 p 值小于 0.05 作为单次 t 检验的显著性阈值，那么，根据 p 值的定义，每一次检验都有 5% 的概率检测出两组有显著性差异，三次比较之后至少有一组有显著性差异的概率接近于 5% 的三倍，也就是 15%（更准确的数字应该为 1-(1-5%)³=14.3%）。

这种利用对同一组数据进行多次检验来判断是否要拒绝原假设对过程称为多重比较（ multiple comparison ）。

从上面的计算可以看出，对 A、B、C 三组进行多重比较来判断其中是否至少有一组不同的过程中，一型错误的概率在累积，导致出现有假阳性的概率从单次检验的 5% 上升到了 15%。很多时候还会有不止 3 组的情形，这是由于两两组合可以检验的情形更多，出现假阳性的概率也会更高。

►▷►►

再举个例子帮助大家直观地理解使用多重检验的问题。

蓝精灵们在玩抛钢镚儿的游戏，如果将同一个抛钢镚儿抛十次，观察到只有一次正面向上，观察到这样的结果，显然我们不太可能认为钢镚儿两面朝上的概率是一样的。

对于感兴趣的读者，下面是 p 值的计算：

按照原价上正面朝上的概率是0.5，p 值是十次只出现一次或没有正面向上的概率：

因为 p 值小于 0.05，拒绝原假设钢镚儿两面朝上的概率相等。

现在有一百个钢镚儿，要检验是否所有的钢镚儿都正常——即两面朝上的概率都相等。即使所有的钢镚儿都是正常的，如果将每个钢镚儿都抛十次，难免会有个别钢镚儿出现只有一次正面向上的概率，但这并不能说明这一百个钢镚儿里面确实有不正常的钢镚儿。

上面的例子也说明多重检验导致假阳性概率升高并不是 t 检验特有的问题，实际上，只要涉及到多次对同一组数据使用统计检验来否定同一个原假设，不管具体涉及的检验方法是什么，几乎都会导致假阳性升高。如果对多重检验置之不理，往往会导致发现的「显著性」其实并不显著，得到错误的结论。

►►▷►

如何修正多重检验得到的结果呢？最简单粗暴的方法是 Bonferroni 修正，即用比平时更严格的 p 值来控制实验的假阳性。

具体的操作为，如果进行 n 次检验，就把 p 值的阈值由常规到 0.05 调低到 0.05/n 。

Bonferroni 修正的原理其实非常简单，就是三次检验至少有一次出现假阳性的概率小于每次检验出现假阳性的概率之和，这一点看下面的维恩图就一目了然了。

图1 每个彩色圆圈的面积代表一次检验出现假阳性事件的概率，三个圆圈盖住的面积代表至少有一次假阳性时间的概率，很明显是小于右边的面积的。Bonferroni 修正通过要求右边每个圈小于 0.05/3 来保证左边总面积加起来小于 0.05 。

从上面的维恩图也可以看到，当左边的圈开始重合得越多，即三次检验会出现假阳性时，左边的概率会远远小于右边单次概率之和。因此可以看 Bonferroni 修正是一种比较保守的做法，虽然可以保证整体结论出现假阳性的概率一定小于 0.05（对应上图右边三个面积之和），但实际的显著性阈值可能比 0.05 低不少（对应于左边面积之和）。

根据前面统计功效的学习，显著性的阈值越低，统计功效也越低，于是使用 Bonferroni 修正更容易出现数据虽然有显著性差异但没有被检测出来。

►►►▷

因为我们既想避开假阳性的陷阱，也不想错失发现重要结果的机会，有没有什么两全其美的办法呢？

实际上，对于检验三组或以上的数据是否具有相同的平均值，有专门的统计检验武器——方差分析（英文为 ANOVA，代表 Analysis Of Variance）。

回到之前检验食堂三个师傅制作的包子是否一致这个问题上，方差分析的原假设是从三个师傅那里随机抽出的 A、B、C三组包子的平均值相等。

如果真是这样，那么单独一组样本包子的平均值与三组包子混合在一起的平均值是也应该是相等的。

换句话说，如果原假设是真的，知道包子是哪位师傅制作的并不能让我们更准确地估计包子的质量，因为三位师傅做的包子大小都一样。

另外一方面，如果三位师傅制作的包子差别很大，比如康师傅的包子每个都接近二两，王师傅和格格巫的包子都在一两左右，那么知道包子是哪位师傅做的显然可以更准确地预测包子的质量。

方差分析正是通过考察包子组别（即是哪位师傅做的）信息能否帮助更准确地预测包子质量，来判断不同组别间是否有统计显著性，其详细的计算方法请听下回分解。

为什么对于三组或以上数据的比较，方差分析会优于 t 检验？

因为 t 检验需要对两两组合进行多重检验，进而需要处理假阳性的问题，而方差分析只要通过一次检验就能验证结论。

方差分析在实际应用中使用非常广泛。比如研究几条不同生产线生产的同一种零件会不会有显著差异，同一种药物对不同年龄组的人群会不会有不同的效果，同一个城市居住在几个不同城区的人患某种疾病的概率是不是一样等等问题。