你真的懂p值吗？ | 说人话的统计学·协和八 | 自由微信

查看原文

其他

你真的懂p值吗？ | 说人话的统计学·协和八

Original 2015-06-30 张之昊 协和八

小编按：有些东西，完美诠释了「少壮不努力，老大方恨少」（咦好像不是这么背的…），比如统计学知识。更无奈的是，当你意识到统计学的重要想再去自学的时候，已经看不懂书上在说什么了。

统计学有那么难？不要慌，「说人话的统计学」系列正式开播，带你无障碍了解高深的统计学，快来看吧~

回复「统计学」可随时查看本系列文章

你真的懂P值吗？

►面对文献里五花八门的统计学名词、层出不穷的测试和模型，你是否后悔当年的统计课上不该睡大觉？

►辛辛苦苦做了实验收了数据，正想大步迈向SCI高分文章，你是否不知数据分析该如何下手？

►投出了文稿，却等来了审稿人对统计方法似是而非的挑刺，你是否不清楚该如何应对？

►别担心，你不是一个人在战斗！

►在本系列中，我们将和你一起，探讨最实用、最关键的统计学知识和方法。我们将指出常见的统计学误区和陷阱，回答那些你一直想问但不好意思问的问题。还会在统计学表面的芜杂之中为你阐明最本质的思维方法。我们的目标是，让你拥有一双善用统计学的巧手，和一双能辨清滥用统计学的慧眼。你会发现，成为统计达人也可以很轻松！

p值到底是个啥？

►有人说：「统计学就是个p！」此p可不像彼「屁」，可以一放了之。作为假设检验的核心工具，它经常决定着一个发现的价值、一篇论文的成败。你一定忘不了做课题时为p欢喜为p忧的经历：得到p小于0.05时欣喜若狂，得到p大于0.05时灰心丧气。可以，你真的懂p值吗？它到底是什么？

►随便翻开一本统计学课本，我们会看到这样的定义：

p值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。

►你的反应多半会是：「说人话！」

►好好好，那咱们来举个例子：假设明天就要宿舍卫生检查了，可同住一屋的蓝精灵和格格巫都不想搞卫生，在一番谦（si）让（bi）之后，格格巫掏出一块看起来很无辜的钢蹦儿，提议这事儿交给老天爷决定：正面蓝精灵做，反面他做。被格格巫坑过或试图坑过不止一次的蓝精灵心想，这钢蹦儿会不会不太对劲，抛出来正反面的可能性不一样大？于是蓝精灵拿到钢蹦儿，跑到墙角自己先抛了五遍，结果傻眼了——五遍都是正面！格格巫的阴谋就这样再一次被挫败了……

►这事儿跟p值有半毛钱关系吗？有！

►回到刚才你读过的定义上，咱们来细想一下，蓝精灵同学如果学过统计学的话会是怎么考虑的。

►首先，本着疑罪从无的原则，善良的蓝精灵假定格格巫的钢蹦儿是均匀的，也就是抛出来正面和反面的概率都是0.5。这就是定义里的「原假设」。

►而蓝精灵的「样本」是，抛5次钢蹦儿，得到了5个正面。由于只抛了5次，不可能得到比5次更多的正面了，因此在这个例子里不存在比样本「更极端的结果」。

►那么，什么是「与样本相同」的结果？这取决于蓝精灵是否对这枚钢蹦儿偏向某一边有特定的假设。蓝精灵想起，格格巫提出的办法是如果反面就由他搞卫生，那就应该没有钢蹦儿偏向反面的可能性。所以他认为，要是这块钢蹦儿不均匀，就只可能偏向正面。在这种情况下，「与样本相同的结果」就只有5次正面这一种。

►所以，如果钢蹦儿是均匀的，连抛5次得到都是正面的概率就是0.5的5次方，也就是0.03125，这就是我们所说的p值。换句话说，这种结果得玩儿32次才会出现1次。即使不做这样的计算，蓝精灵从日常生活的经验中，也能感觉到，对于一块均匀的钢蹦来说，得到这样的结果实在不太可能了。与其相信这样的小概率事件真的发生了，我们觉得更合理的解释是这块钢蹦儿根本就不是均匀的。多小的p值算是小？在统计学中，最常用的界线是0.05，因为这个样本对应的p值小于0.05，所以蓝精灵拒绝了原假设，也就是人们常说的「具有统计学意义上的显著性」，认为格格巫拿出了一块偏向正面的钢蹦儿。

好了，现在我们再念一遍p值的定义：

p值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。

►是不是更像一点儿人话了？

►之所以费半天劲来解释这一句话，是因为p值的定义中蕴含了显著性检验的基本思维方法，这种思维方法几乎被运用在所有主流的统计学分析之中。对它的准确理解，不仅是通向掌握各种具体的统计学测试的大门，更影响着我们对统计分析结果的解读。

►如果你还是觉得有点绕不过来，不妨回忆一下高中数学证明题的大杀器——反证法。在反证法中，为了证明某个命题是错误的，我们首先假设它成立。在这个前提下，我们根据已知条件推导出与此前提或者其他公理、定理相矛盾的结论。由此我们认为，我们的假设一上来就错了。

►根据p值进行统计推断的思想跟反证法是一脉相承的。但是，两者有一个关键的区别。由于随机性的存在，在统计推断中，我们无法像在反证法中一样斩钉截铁地认定原假设是错误的，我们只能根据「小概率事件在一次随机实验中不会发生」的原理做出能否推翻原假设的决策。

►回到蓝精灵和格格巫掷钢蹦儿的例子，即便是一块真正均匀的钢蹦儿，也有0.03125的概率连续出现5个正面。蓝精灵之所以能够拒绝认为钢蹦儿均匀，并非因为他确切地知道钢蹦儿有问题，而是他所拥有的数据非常不支持钢蹦儿均匀的假设。换言之，蓝精灵是有可能错怪了格格巫的，只是错怪的可能性足够小而已。

►所以p值到底是个啥？它是基于特定假设和实际样本进行统计推断的一个工具。某种意义上说，p值体现了如果原假设成立，一个人看到样本时的奇怪程度。p值越小，我们获得的样本在原假设成立的前提下越不可能出现。而当p值小到一定程度时，我们不得不认定，我们的前提是错误的，因为可能性这么小的事件实在是太难发生了。

p值不是什么？

►如果你看完了上面这个部分，觉得已经看懂了p值的定义，可以把文章关掉了的话，我要高呼一声：且慢！p值是目前科学界广泛使用的主流统计学方法中最重要的一个概念，同时也可能是被误读最多的一个概念。翻开各学科的文献，很容易就发现对p值的错误理解和表述，即便是发表在Nature、NEJM之类最顶级期刊的文章偶尔也不能免俗。所以，弄清楚p值是什么和p值不是什么同样重要。下面，我们就来一起认清楚这些个大坑：

✓p值不是原假设为真的概率，也不是备选假设为假的概率

►神马？刚才不是说p值很低的时候，拒绝原假设，认为备选假设是真的吗？那难道不是说p值代表原假设有多真吗？不是。这个问题最简单的解释是，对于任何一个假设，它为真的概率都是固定的。然而，我们已经知道p值是根据具体的样本数据计算得出的，同样的实验重复做几次，每次得到不同的样本，p值也自然会有区别。因此，p值不可能是原假设为真或备选假设为假的概率。

►如果我们想得再深一点儿，回忆之前我们描述的显著性检验的思维框架，p值越低，样本提供的证据越不支持原假设，低到一定程度的时候我们认为原假设是假的，而备选假设是真的。p值只描述样本与原假设的相悖程度，原假设的真与假是我们以此为根据做出的一个判断。p值并不能描述原假设和备选假设本身为真的概率。

►那么说，我们做实验收数据做分析忙活儿了半天，却依然不能知道我们的假设具体有多大可能是真的？很遗憾，对这个问题的回答是肯定的。我们今天所广泛使用的一整套统计推断和假设检验方法及其思想体系（被称为「频率学派」），是由活跃于上世纪的英国统计学家费希尔开创的。p值能做的，就是在特定的零假设条件下对数据特征进行分析。但是，我们如果要对这些假设本身作出判断，光凭数据本身还不够，我们还需要了解现实世界中除了我们感兴趣的假设以外其他假设存在的概率。实际上，假设成立与否的概率是统计学科中另一个近年来日渐受到重视的流派——贝叶斯学派——试图解决的问题，也有不少统计学家呼吁科学界应当用贝叶斯方法补充甚至替代如今以p值为中心的方法。这些已经远远超出今天的主题，我们暂时就不展开讨论了。

✓p值并不能代表你所发现的效应（或差异）的大小

►正如我们说过的，p值只关心数据与原假设之间有多不一致。但是，如果某种效应或差异存在，p值并不能准确地告诉我们效应的大小，更不能告诉我们这效应是否具有实际意义。比如说，我们开发了一种降血压药物。在临床试验中，我们比较受试者在服药前后血压的降低，得到了p值小于0.05的显著结果。这意味着什么呢？我们可以有信心地认为，这种药物能够降低受试者的血压。但是，光从p值中，我们无法知道药物到底能使血压降低多少。事实上，也许药物仅仅能够使受试者的血压降低微乎其微的程度（如2mm/Hg），如果我们有足够多的受试者，我们同样能够得到很小的p值，但是这样的效应并没有显著的临床意义，也没有实际的商业价值。

►因此，在科学文献中，当我们报告统计测试的结果时，不能仅仅给出p值，还需要给出相应的效应大小（取决于具体的测试，比如均值的差、回归系数、OR值等）及其置信区间，这样才能使读者更全面、准确地评估研究发现的意义。

✓为什么是0.05？

►我们前面提到，在显著性检验中，当p值小到一定程度时，我们就认为原假设不成立。可是为什么这条线就划在了0.05这里？这个问题有一个很无趣的答案：这是费希尔老爷子随口一说的。为了避免像错怪格格巫一样的错误，我们希望尽可能保守一些，因此显著性的界限也应该比较小。但是另一方面，这个界限也不能太小，不然社会投入到科研的资源无法满足能得到显著性结果的样本量。
►费希尔的随口一说之中似乎也包含了某种神奇的直觉。有学者提出，对于过去近百年中生物医学和社会科学（运用统计学方法最普遍的学科）研究中常见的效应大小和样本量而言，0.05这个界限恰好在任何实验都做不出显著性结果和假阳性发现满天飞之间找到了一点微妙的平衡。当然，科学研究在不断地发展，当代的许多新领域（如基因组学）中的海量数据和测试已经对0.05这条金标准作出了挑战，统计学家也发展出了新的对策。这里我们先按下不表，在后续文章中将会一一道来。

►另外，0.05的存在也是「前计算机时代」的一个历史遗留产品。九十年代以前，计算机和统计软件还没有被广泛使用，人们进行统计学分析时，往往需要借助统计学表格，把根据样本算出的统计量与表格中的临界值进行比较。由于篇幅所限，表格自然不能列出所有的p值，因此当时的人们都倾向于报告p<0.05的结果。随着统计软件的流行，如今获得精确的p值已不是难事，人们也不再采用这样模糊的表述了。但是0.05这个门槛儿却成为了一种文化，被科学界保留了下来。

参考资料：

1. Reinhart, Alex. "Statistics done wrong." (2014).

2. Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.

3. Anonymous. “Why P=0.05?” http://www.jerrydallal.com/lhsp/p05.htm

作者简介

张之昊，2005年进入清华－协和临床医学八年制专业，后转入清华生物系获理学学士学位。2010年起在耶鲁大学跨院系神经科学项目攻读哲学博士学位，利用功能核磁共振技术与计算建模研究人类经济决策的脑科学基础。同时，还作为耶鲁大学StatLab统计咨询师为耶鲁师生提供数据分析、实验设计及统计学软件的咨询服务。

编辑：粉条儿菜

小编微信热线正式开通，欢迎添加微信好友「xieheba」，掌握更多讯息！（内心戏：明明是冷线，根本没人理，呜呜）

陈佩斯，这次真悬了！

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

这就是你日日夜夜想要的....赶紧收藏~

哪些机构参与了这轮行情？ | 机构行为周度观察