查看原文
其他

生物信息学技能面试题(第6题)-下载最新版的KEGG信息,并且解析好

2017-02-23 生信技能树

很简单一件事,参见我的博客:
下载得到文本文件,可以看到里面的结构层次非常清楚




C开头的就是kegg的pathway的ID所在行,D开头的就是属于它的kegg的所有的基因
A,B是kegg的分类,总共是6个大类,42个小类


需要写脚本变成:


代码如下:

perl -alne '{if(/^C/){/PATH:hsa(\d+)/;$kegg=$1}else{print "$kegg\t$F[1]" if /^D/ and $kegg;}}' hsa00001.keg >kegg2gene.txt


上面得到的基因是ID,pathway也是ID,其实 你可以得到它们的ID与name的对应表格,请发挥自己的代码能力吧!

收集整理了最新的KEGG信息,就是什么基因对应什么通路,什么通路对应那些基因!
就可以去做富集分析了~
 
就可以回答下面两个问题了:
人类有多少基因是有KEGG数据库注释信息的呢?
人类有多少基因是有GO数据库注释信息的呢?


微信里面无法发链接,点击阅读原文可以查看具体信息!


也可以查看历史题目:

生物信息学技能面试题(第1题)-人类基因组的外显子区域到底有多长

生物信息学技能面试题(第2题)-探索人类基因组序列

生物信息学技能面试题(第3题)-探索人类基因组注释文件

生物信息学技能面试题(第4题)-多个同样的行列式文件合并起来

生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构


这些题目都是有配套的python和perl视频讲解的,部分还有R和shell的视频讲解,不过,我觉得这些题目本身才是最重要的!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存