查看原文
其他

Points of Significance: 一元线性回归

NGSHotpot NGSHotpot机器深度学习生信 2022-06-07

本文系NGSHotpot原创,欢迎分享,公众号转载须授权!

Points of Significance: 一元线性回归


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。


回归谬误

        回归谬误是指未考虑统计学上的随机事件,从而造成不恰当的因果推断。

        比如:运动员百米跑时间是随机的,跟运动员跑步的身体状态,心里状态等多种因素有关。若是某个运动员跑步成绩差,教练批评了他,他再跑一次成绩就好了,从而推断教练批评会提高成绩显然是不恰当的。

        学生考试成绩也是类似:假如某个学生某次考试考了100分,然后老师和家长表扬了他,第二次考试他只考了95分,老师和家长批评了他,第三次又100分。这是否能说明表扬会让学生成绩差,批评能让学生成绩好呢?这现在是不恰当的!

        本文主要内容是介绍简单线性回归的基本知识,后面会涉及到线性回归中的回归谬误。


相关性与回归

        在真实数据中,极少会存在完美的正态分布,也极少会存在比值的线性关系。尽管如此,我们还是通常假设数据是服从正态分布,两个变量线性相关的。因为这可以给我们提供很多有用的变量估计。

        前面的Points of Significance: Association, correlation and causati中我们提到了关联和相关性的关系。关联是指某一个变量对另一个变量有影响,那么我们就说这两个变量关联,或者说,若是一个变量的分布随着另一个变量的变化而改变,那么这两个变量关联。而相关性指的是一种特殊的关联性,比如X随着Y的增大而增大或者X随着Y的增大而减小,这样有线性趋势性的关联就是相关性。

        我们研究两个变量的相关性,我们可能会从两个变量中随机抽取一定数量样本,然后计算这两个变量的相关性。而回归通常是抽取其中一个变量X(自变量)的样本,通过X的值去预测另外一个变量Y(因变量)的值。

 

一元线性回归

        在一元线性回归中,只有一个自变量X,一个因变量Y,想要提供自变量X的值来预测因变量Y的值,预测的这个Y的值其实是一个均值。比如说,身高和体重明显是有正相关的线性回归的,比如当一个人身高175cm时,我们预测他体重为75kg,这不是说所有身高175cm的人身高都是75kg,这显然不现实。而是预测所有身高175cm的平均体重为75kg。

 

回归条件

        因变量Y可以对自变量X进行回归当且仅当Y的均值随着X的改变而变化,这和关联还不一样,关联是Y受到X的影响,而回归是Y的均值受到X的影响。

        如上图所示,横轴表示自变量X,纵轴表示因变量Y,图a中的数据点X和Y没有关联,所以更别说有回归了。图b中数据点相互关联的,因为随着X的增大,Y的方差变大,但是并没有回归,因为Y的均值不受X的影响。

        回归分为线性回归和非线性回归,如上图c所示就是一个线性回归,上图d为一个非线性回归。本文主要集中在线性回归上。


一元线性回归示例

        还是刚才身高和体重的例子,假如对于身高超过1米的人来说,体重为Y,身高为X,回归方程为:

        但是由于每一个身高对应的体重不是一个特定的值,而是对应着很多值,对应着的是一个分布,假设该分布的标准差为3。

        如上图a所示,当身高为157.5cm时,体重服从均值为60kg,标准差为3kg的正态分布,同样,当身高为172.5cm时,体重服从均值为70kg,标准差为3kg的正态分布。

 

        本文从一开始就说用X的值去预测Y的值,因为他们有线性回归关系。那么如何去发现这种线性回归关系呢?通常我们对不同身高的人进行抽样,比如每一个身高的人抽取三个,测量他们的体重,然后计算同一身高的三个人的体重的平均值,然后用这个平均值和身高去做相关性分析得到身高体重线性关系的估计。

        如上图b所示,黑色的直线为身高体重的线性回归线,蓝色直线为每个身高抽取三个体重的均值与身高的回归线,发现这两根线基本重合。在实际我们操作中,每个变量可能都只取一个样本。


线性回归参数估计

        若是有两个变量X,Y,要估计两个变量的回归关系如下:

        若是已知和,一般使用最小二乘法估计上式中的参数a和b。最小二乘法估计参数的目的是选择a,b的值使得SSE(sum of square error)最小,SSE计算如下:

即Y的预测值与真实之差的平方和。


方差解释

        很多时候我们会在文献中看到,我们的模型解释了95%的方差等等类似的话,那么线性回归的方差解释度是怎么衡量的呢?

首先一些定义为:

        SST代表的是因变量Y的方差的(n-1)倍,即因变量Y的每一值与Y的均值之差的平方和。SSR代表回归预测的每一个值与Y的均值之差的平方和。并且有SST=SSR+SSE

        常用的方差解释度定义为SSR与SST的比值,即我们常常说的R方。


线性回归谬误

        如上图b所示,表示的是身高和体重的回归关系。左边那个图是体重为因变量,身高为自变量,而右边那个图体重为自变量,身高为因变量。

        上面虚线部分表示了一个例子:当身高为175cm时,利用左边的模型可以预测出来体重为71.6kg,而当体重为71.6kg时,使用右边的模型预测出来身高为172.7公分。会发现通过这样的计算,最后预测出来的身高172.7比实际的身高175低。但是若是当最初身高取150时,最后预测出来的身高会比最初身高高。其实,他们都是均值趋向的,身高均值为165的话,高于165的身高最后预测出来的身高偏低,低于165的预测出来的偏高。

        最后这部分具体原理我还没有读懂,后面会继续理解。但是我写程序模拟数据测试了,是正确的,大家也可以自行写程序看看哦。


系列文章

1. Points of Significance: Importance of being uncertain

2. Points of Significance: Error bars

3. Points of Significance: Significance, P values and t-tests

4. Points of Significance: Power and sample size

5. Points of Significance: Visualizing samples with box plots

6. Points of Significance: Comparing samples part I

7. Points of Significance: Comparing samples part II

8. Points of Significance: Nonparametric tests

9. Points of Significance: Designing comparative experiments

10. Points of Significance: Analysis of variance and blocking

11. Points of Significance: Bayes’ theorem

12. Points of Significance: Bayesian statistics

13. Points of Significance: Bayesian network

14. Points of Significance: Association, correlation and causation

扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。


参考文献

 1. Altman N, Krzywinski M. Simple linear regression. Nature methods. 2015;12(11):999-1000.

 

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存