查看原文
其他

Points of Significance: Analyzing outliers: influential or n

NGSHotpot NGSHotpot机器深度学习生信 2022-06-07

本文系NGSHotpot原创,欢迎分享,转载须授权!

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。


前言

        前文介绍了线性回归和多元线性回归,可以通过某一个自变量或者多个自变量预测因变量的值,在多元线性回归的分析中,我们解释了,若是当自变量之间是相关的,那么单独使用某个自变量对因变量进行预测的时候会有较大差异,甚至有些时候正负性质都会有改变,详见(Points of Significance: 多元线性回归)。本文主要介绍outlier对回归模型的影响。


Outlier对回归模型的影响

        还是以在一元线性回归(Points of Significance: 一元线性回归)中提到的例子为例,使用身高预测体重的线性模型如下:

如下图a所示为11个样本的一个线性模型。


        上图的b和c分别人为改变其中两个值为outlier,如上图b中将第6个人的体重减少3,上图c中将第11个人的体重减少3。从上图的可以得出以下结论:

1上图b的变化对模型影响极小,使直线略微下移,而第六个人的预测值从65.2移动到了64.9,而斜率基本没有影响。

2上图c的变化有较大影响,预测值减小,从原来的68.7降低到67.5,但是直线斜率变化较大,从0.7降低到0.57。

3.上图b中的残差平方和变得较大13.8,而上图c的残差平方和变化没有这么大。

 

        为什么第6个人和第11个人对回归的影响不一样,虽然他们在原来的基础上下降的都是3?这是因为outlier的对回归模型的影响具有杠杆效应。


        在一元线性回归中,按照如下公式定义杠杆大小:

        该公式比较好理解,就是随着自变量到自变量均值之间的距离的增大而增大,也就是说,将自变量的均值作为杠杆的支点。杠杆效应值最小为1/n,如下图所示


        上图a是不同的身高对应的杠杆效应值,该曲线为二次函数曲线,一般情况下将杠杆效应值大于(2p+2)/n的值称为outlier,这里的p是自变量的个数。上图b中分别展示了我们第一个图中的三种情况1原始数据黑色,2是第6个人体重减少3蓝色,3是第11个人体重减少3红色对应的残差。

        上图c是Cook距离就是leave one out的预测残差绝对值,比如我们若是要计算第1个人的cook距离,那么我们使用后面10个人训练线性模型,然后使用该线性模型预测第1个人的体重,看预测体重与真实体重的差异。


多重线性回归

        对于多重线性回归的情况,衡量杠杆效应就要负责得多,本文简单说明。若是身高体重都是自变量,显然55kg的体重是一个正常体重,身高185也是一个正常身高,但是若是一个185的人体重55kg显然就不是一个正常情况。


总结

        某个变量若是其杠杆效应越大,那么该值为outlier时对回归模型的影响越大。

系列文章

1. Points of Significance: Importance of being uncertain

2. Points of Significance: Error bars

3. Points of Significance: Significance, P values and t-tests

4. Points of Significance: Power and sample size

5. Points of Significance: Visualizing samples with box plots

6. Points of Significance: Comparing samples part I

7. Points of Significance: Comparing samples part II

8. Points of Significance: Nonparametric tests

9. Points of Significance: Designing comparative experiments

10. Points of Significance: Analysis of variance and blocking

11. Points of Significance: Bayes’ theorem

12. Points of Significance: Bayesian statistics

13. Points of Significance: Bayesian network

14. Points of Significance: Association, correlation and causation

15. Points of Significance: Simple linear regression

16. Points of Significance: Multiple linear regression

扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。


参考文献

1.  Altman N, Krzywinski M. Analyzing outliers: influential or nuisance? Nature methods. 2016;13(4):281-2.

 

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存