差异分析及KEGG注释简介

Original 刘小泽单细胞天地 2022-06-06

收录于合集 #第一期单细胞视频笔记汇总 21个

课程笔记

粉丝：有单细胞线上课程吗？

小编：什么？我们的单细胞转录组分析线上课程已经上线好久了，你们竟然都不知道吗，每篇推文后面的课程推荐没人看的吗，小编已哭晕在厕所

好了，戏演完了，下面郑重介绍下我们的单细胞线上课程：（详情戳下方链接）

全网第一个单细胞转录组数据分析实战视频教程(预售第二波通知)

课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53

这个课程笔记栏目记录了学员们学习单细胞转录组课程的学习笔记

希望大家能有所收获！

前 · 言

第二单元最后一讲：差异分析及KEGG注释简介

原来的bulk-RNA差异分析一般需要比较处理组(例如有三个样本)和处理组(例如也有三个样本)，这里对于单细胞来讲，每个细胞就是一个样本，于是有768个样本，但是还是不能直接进行差异分析，还是需要先分个组，看看哪些细胞离得更近，就划分为一组，最后对每个组进行比较

于是单细胞的差异分析在进行之前，就要先探索一下文章数据如何进行的分组

探索分组

主要利用三种方法：logCPM、RPKM、logRPKM

 1# 对logCPM矩阵进行分组
 2load(file = '../input.Rdata')
 3dat[1:4,1:4] ## 在step0-index.R中对原始表达矩阵进行了过滤和CPM处理：dat=log2(edgeR::cpm(dat)+1) ，将结果保存在了input.Rdata中
 4hc.logCPM=hclust(dist(t( dat ))) 
 5
 6load(file = '../input_rpkm.Rdata')
 7# 对logRPKM矩阵进行分组
 8hc.logRPKM=hclust(dist(t(log(dat+0.1)))) 
 9
10# 对RPKM矩阵进行分组
11hc.RPKM=hclust(dist(t( dat ))) 
12
13# 因为三个hclust处理较慢，因此运行完可以保存为一个Rdata(另外Github下载的代码目录中是包含这个hc_3.Rdata的，如果不想自己运行，可以直接加载)
14# save(hc.logCPM,hc.logRPKM,hc.RPKM,file = 'hc_3.Rdata')
15load(file = 'hc_3.Rdata')

好，首先进行一下可视化

1par(mfrow=c(1,3))
2plot(hc.logRPKM,labels = F)
3plot(hc.RPKM,labels = F)
4plot(hc.logCPM,labels = F)

看似第一个(logRPKM)和第三个(logCPM)形状比较像，具体可以使用table()函数看一看

 1> g1 = cutree(hc.logRPKM, 4);table(g1)
 2g1
 3  1   2   3   4 
 4344 189 217  18 
 5> g2 = cutree(hc.RPKM, 4)  ;table(g2)
 6g2
 7  1   2   3   4 
 8112 606  15  35 
 9> g3 = cutree(hc.logCPM, 4)  ;table(g3)
10g3
11  1   2   3   4 
12312 300 121  35

看顶部原文的分组图片，可以看到有一组特别多，其他三组较少，其实很像我们这里用RPKM(第二组)得到的结果，但是这个结果到底如何？我们接下来会利用tSNE方法继续判断

注意：Rtsne函数是对行进行操作，因此我们原来的表达矩阵需要转置后运行，来满足我们对样本聚类的需求。如果不确定，可以试试使用标准的表达矩阵(行为12689个基因，列为768个样本)，它画出来的结果是惨不忍睹的，另外可以通过运算时间来判断，如果运行时间非常长，就要考虑：是不是矩阵没转置？

正确的做法如下：

 1load(file = '../input_rpkm.Rdata') 
 2>   dat[1:4,1:4]  # 时刻不忘检查
 3              SS2_15_0048_A3 SS2_15_0048_A6 SS2_15_0048_A5 SS2_15_0048_A4
 40610007P14Rik              0              0       74.95064      69.326130
 50610009B22Rik              0              0        0.00000       0.000000
 60610009L18Rik              0              0        0.00000       0.000000
 70610009O20Rik              0              0        2.19008       3.314831
 8
 9dat_matrix <- t(dat) # 矩阵转置
10dat_matrix =log2(dat_matrix+0.01) 
11
12set.seed(42) #因为tsne函数每次运行都会绘制新的坐标，因此需要设定随机种子，保证重复性
13tsne_out <- Rtsne(dat_matrix,pca=FALSE,
14                  perplexity=27,theta=0.5)  
15
16par(mfrow=c(1,3))
17plot(tsne_out$Y,col= g1,sub = 'hc.logRPKM')  
18plot(tsne_out$Y,col= g2,sub = 'hc.RPKM') 
19plot(tsne_out$Y,col= g3,sub = 'hc.logCPM')

从上面👆这个图可以看到，logCPM(最右边的图)中样本分的还很开，logRPKM(最左边)次之，它把绿色的样本混在了一起，最差的是直接用RPKM得到的分组

如果使用logCPM矩阵进行作图：

 1load(file = '../input.Rdata')
 2
 3>   dat[1:4,1:4]
 4              SS2_15_0048_A3 SS2_15_0048_A6 SS2_15_0048_A5 SS2_15_0048_A4
 50610007P14Rik              0              0       6.459884       6.313884
 60610009B22Rik              0              0       0.000000       0.000000
 70610009L18Rik              0              0       0.000000       0.000000
 80610009O20Rik              0              0       2.544699       3.025273
 9
10dat_matrix <- t(dat)
11set.seed(42)
12tsne_out <- Rtsne(dat_matrix,pca=FALSE,
13                  perplexity=27,theta=0.5)  
14par(mfrow=c(1,3))
15plot(tsne_out$Y,col= g1,sub = 'hc.logRPKM')  
16plot(tsne_out$Y,col= g2,sub = 'hc.RPKM') 
17plot(tsne_out$Y,col= g3,sub = 'hc.logCPM')

那有没有可能是因为数据计算方法不同而导致结果可视化的差异呢？也就是说，前面两个图都是使用的log矩阵，一个是logRPKM，一个是logCPM，当然它们的结果会更"偏袒"于自身，而不是原始的RPKM值。这里，可以看看直接使用RPKM矩阵进行分组作图，结果是不是RPKM分的更开(猜想应该是RPKM矩阵得到的图会更偏向于RPKM的分组)

 1load(file = '../input_rpkm.Rdata') 
 2dat[1:4,1:4]
 3dat_matrix <- t(dat) # 这里就不再进行log处理了
 4
 5set.seed(42)
 6tsne_out <- Rtsne(dat_matrix,pca=FALSE,
 7                  perplexity=27,theta=0.5)  
 8par(mfrow=c(1,3))
 9plot(tsne_out$Y,col= g1,sub = 'hc.logRPKM')  
10plot(tsne_out$Y,col= g2,sub = 'hc.RPKM') 
11plot(tsne_out$Y,col= g3,sub = 'hc.logCPM')

结果看到，这次RPKM分的更开了

但是，和原文不同，我们下面👇的差异分析操作中，还是更偏向于使用CPM的结果

差异分析

1rm(list = ls()) 
2options(stringsAsFactors = F)
3load(file = '../input.Rdata')
4# a[1:4,1:4]
5# head(df)
6> table(df$g)
7
8  1   2   3   4 
9312 300 121  35

接下来将使用RNA-seq常用的limma包进行处理(注意：这里只是在探索如何进行分析，单细胞数据不一定会使用到常规的差异分析包，会有更好的算法等待着我们)

如何得到差异基因？

 1# 对基因进行过滤(之所以赋值给exprSet，是因为下面limma运算过程中全程都在用这个名称，运行函数就是拷贝代码=》用到哪里改哪里)
 2exprSet=a[apply(a,1, function(x) sum(x>1) > floor(ncol(a)/50)),]
 3# 然后因为是smart-seq2的数据，会有ERCC spike-in，检查一下
 4> grep('ERCC',rownames(exprSet))
 5 [1] 12139 12140 12141 12142 12143 12144 12145 12146 12147 12148 12149 12150 12151 12152 12153 12154
 6[17] 12155 12156 12157 12158 12159 12160 12161 12162 12163 12164 12165 12166 12167 12168 12169 12170
 7[33] 12171 12172 12173 12174 12175 12176 12177 12178 12179 12180 12181 12182 12183 12184 12185 12186
 8[49] 12187 12188 12189 12190 12191 12192 12193 12194 12195 12196 12197 12198
 9# 嗯，确实存在，然后我们要去掉，两种方法都可以(grepl返回逻辑值，grep返回坐标)
10# 方法一：
11exprSet=exprSet[!grepl('ERCC',rownames(exprSet)),]
12# 方法二：
13exprSet=exprSet[-grep('ERCC',rownames(exprSet)),]

然后limma包需要定义分组信息，这一点就要去原文寻找，他们怎么做的分组，看到：他们是将每个population和其他的混合群体进行差异分析

于是我们可以对第一组和其他组(第2、3、4组的混合)进行差异分析

 1# 定义分组信息
 2group_list=ifelse(df$g==1,'me','other');table(group_list)
 3# group_list
 4#   me other 
 5#  312   456 
 6
 7# 接下来直接拷贝代码，运行即可
 8library(edgeR)
 9if(T){
10  suppressMessages(library(limma))
11  design <- model.matrix(~0+factor(group_list))
12  colnames(design)=levels(factor(group_list))
13  rownames(design)=colnames(exprSet)
14  design
15
16  dge <- DGEList(counts=exprSet)
17  dge <- calcNormFactors(dge)
18  logCPM <- cpm(dge, log=TRUE, prior.count=3)
19
20  v <- voom(dge,design,plot=TRUE, normalize="quantile")
21  fit <- lmFit(v, design)
22
23  group_list
24  cont.matrix=makeContrasts(contrasts=c('me-other'),levels = design)
25  fit2=contrasts.fit(fit,cont.matrix)
26  fit2=eBayes(fit2)
27
28  tempOutput = topTable(fit2, coef='me-other', n=Inf)
29  DEG_limma_voom = na.omit(tempOutput)
30  head(DEG_limma_voom) 
31}
32
33# 部分结果在此
34            logFC  AveExpr         t       P.Value     adj.P.Val        B
35Prelid1 -4.099869 6.527634 -28.15400 1.120169e-120 1.359661e-116 264.7042
36Sec14l4  5.251698 4.059171  26.42578 3.212438e-110 1.949628e-106 240.8450
37Shank1   5.274392 4.317943  26.17762 1.015632e-108 4.109248e-105 237.3548
38Jph3     4.994536 3.689781  25.66937 1.190962e-105 3.613976e-102 230.3916
39Atp5f1  -4.088563 6.776594 -25.17238 1.181824e-102  2.868996e-99 223.4194
40Sec13   -4.177628 6.377070 -24.09519  3.515681e-96  7.112222e-93 208.6103

看到在第一组中有个基因Sec14l4相对于其他组(第2、3、4)是高表达的 (logFC=5.251698) ，于可以可视化一下，最直观的就是利用箱线图，然后加上分组信息即可

1boxplot(dat['Sec14l4',]~df$g)

那么好，现在处理完了第一组和其他组的比较，得到的在第一组的差异基因，那么如何得到其他组中的差异基因呢？最先想到的会是将上面👆的代码group_list=ifelse(df$g==1,'me','other')这里改一下，然后再统统运行一遍。这样是可以的，但是代码发生了大规模重复，说明有问题，不美观也不具备可重复性。
解决方法就是：写函数

 1# 定义一个函数，输入是exprSet和group_list
 2do_limma_RNAseq <- function(exprSet,group_list){
 3  suppressMessages(library(limma))
 4  design <- model.matrix(~0+factor(group_list))
 5  colnames(design)=levels(factor(group_list))
 6  rownames(design)=colnames(exprSet)
 7  design
 8
 9  dge <- DGEList(counts=exprSet)
10  dge <- calcNormFactors(dge)
11  logCPM <- cpm(dge, log=TRUE, prior.count=3)
12
13  v <- voom(dge,design,plot=TRUE, normalize="quantile")
14  fit <- lmFit(v, design)
15
16  group_list
17  cont.matrix=makeContrasts(contrasts=c('me-other'),levels = design)
18  fit2=contrasts.fit(fit,cont.matrix)
19  fit2=eBayes(fit2)
20
21  tempOutput = topTable(fit2, coef='me-other', n=Inf)
22  DEG_limma_voom = na.omit(tempOutput)
23  head(DEG_limma_voom) 
24  return(DEG_limma_voom) #需要什么就返回什么
25}

然后上面原来计算的第一组差异基因就可以用下面简单的代码得到：

1group_list=ifelse(df$g==1,'me','other')
2deg1=do_limma_RNAseq(exprSet,group_list)
3# 再进行一个检验，当然，这里我们也不需要自己去输入基因名
4boxplot(dat[rownames(deg1)[1],]~df$g)

同理对第二组进行操作，得到属于第二组的差异基因：

1group_list=ifelse(df$g==2,'me','other');table(group_list)
2# group_list
3#   me other 
4#  300   468 
5deg2=do_limma_RNAseq(exprSet,group_list)
6# 简单做个检查
7boxplot(dat[rownames(deg2)[1],]~df$g)
8boxplot(dat[rownames(deg2)[2],]~df$g)

接下来就是第三组、第四组：

 1group_list=ifelse(df$g==3,'me','other');table(group_list)
 2# group_list
 3#   me other 
 4#   121   647 
 5deg3=do_limma_RNAseq(exprSet,group_list)
 6
 7group_list=ifelse(df$g==4,'me','other');table(group_list)
 8# group_list
 9#    me other 
10#    35   733
11deg4=do_limma_RNAseq(exprSet,group_list)

运行完这四个deg就会得到每个组的差异基因，接下来就是挑每个组的top18差异基因(对应原文描述)

实战如何进行差异基因可视化？

已经确定每个组要挑前18个基因，但是上调下调没确定。如果从图中看，每个组中都是上调的基因，于是我们可以先按照logFC排个序，然后再挑选

 1deg1=deg1[order(deg1$logFC,decreasing = T),]
 2deg2=deg2[order(deg2$logFC,decreasing = T),]
 3deg3=deg3[order(deg3$logFC,decreasing = T),]
 4deg4=deg4[order(deg4$logFC,decreasing = T),]
 5
 6# choose gene <=> cg
 7cg=c(head(rownames(deg1),18),
 8     head(rownames(deg2),18),
 9     head(rownames(deg3),18),
10     head(rownames(deg4),18)
11     )

作图开始（一步步进行）：

最简单的形式：

1 library(pheatmap) 2 # 主要就是需要一个表达矩阵 3 pheatmap(dat[cg,])

加入分组信息

1 library(pheatmap) 2 ac=data.frame(group=df$g) 3 rownames(ac)=colnames(dat) 4 # 这里不需要列名，显得太乱，而且原文也没有聚类 5 pheatmap(dat[cg,],show_rownames = T,show_colnames = F, 6 cluster_rows = F,cluster_cols = F, 7 annotation_col = ac)

发现的问题是：样本是一个混杂的群体，因此这里分组还是不明了，需要对df$g重新排序，但是它重新排序了，那么对应的dat[cg,]也要重新排序

解决分组排序问题

1 # 为了下面操作更方便，先将分组和矩阵赋值一个简单的名字 2 g=df$g 3 mat=dat[cg,] 4 # order()的返回值是对应“排名”的元素所在向量中的位置 5 mat=mat[,order(g)] 6 ac=data.frame(group=g) 7 rownames(ac)=colnames(dat) 8 pheatmap(mat,show_rownames = T,show_colnames = F, 9 cluster_rows = F,cluster_cols = F, 10 annotation_col = ac)

感觉还不太好，可以进行归一化，先利用函数自带的scale函数

1pheatmap(mat,show_rownames = T,show_colnames = F, 2 cluster_rows = F,cluster_cols = F, 3 annotation_col = ac，scale = 'row')
但是很丑：
我们自己进行归一化：
1n=t(scale(t(mat))) 2n[n>2]=2 3n[n< -2]= -2 4# n[1:4,1:4] 5 6pheatmap(n,show_rownames = T,show_colnames = F, 7 cluster_rows = F,cluster_cols = F, 8 annotation_col = ac)

总结差异分析

结果还是没有重现原文的图，可能由于分组和原文不同，因为分组不同就没办法解决异质性的问题，不能将某一撮基因放到一组，也就没办法看到基本上只在这一组内高表达而另外组中低表达的这种情况

对差异分析结果进行操作

首先做个最最简陋的火山图

1par(mfrow=c(2,2))
2with(deg1,plot( logFC,-log10( adj.P.Val)))
3with(deg2,plot( logFC,-log10( adj.P.Val)))
4with(deg3,plot( logFC,-log10( adj.P.Val)))
5with(deg4,plot( logFC,-log10( adj.P.Val)))
6# 下图分别对应1-4组的差异基因

看到这里火山图的形状和我们平常见到的不太一样，这是因为我们得到差异基因的方法存在问题，这里的单细胞数据不单单是原来bulk转录组的 3v3样本这样，每个细胞都是一个样本，而我们只是又将相似的细胞聚在一起当成一个大组，后来我们也是根据大组进行的差异分析（以deg1为例，就相当于312个样本 vs 剩余的456个样本）。另外还是使用的limma包（原文用的ROTS包），于是产生的差异是可以理解的

接下来过滤差异基因，注释

 1# 取logFC大于3或者小于-3作为过滤条件
 2diff1=rownames(deg1[abs(deg1$logFC)>3,])
 3diff2=rownames(deg2[abs(deg2$logFC)>3,])
 4diff3=rownames(deg3[abs(deg3$logFC)>3,])
 5diff4=rownames(deg4[abs(deg4$logFC)>3,])
 6
 7# 基因ID转换
 8library(ggplot2)
 9library(clusterProfiler)
10library(org.Mm.eg.db)
11df <- bitr(diff1, fromType = "SYMBOL",
12           toType = c( "ENTREZID"),
13           OrgDb = org.Mm.eg.db)
14
15kk  <- enrichKEGG(gene = df$ENTREZID,
16                    organism  = 'mmu', 
17                    pvalueCutoff = 0.9,
18                    qvalueCutoff =0.9)
19dotplot(kk)