查看原文
其他

你可能不适合做人(学徒给我的6个暴击)

生信技能树 生信技能树 2022-06-06


昨天发布了学徒招募,广受关注,得到了各路好友的大力宣传,大家对我是如何带学徒的细节比较感兴趣,限于篇幅我这里不具体介绍,回答几个通用疑问!

生信技能树超级VIP入场券发放(人民币一万起)点击自助报名
拿到超级VIP入场券的学徒,可以无限制参与全部生信技能树举办的线下课程,包括LINUX,R,GEO和TCGA数据挖掘,各种NGS线下大课,所以如果你想参加3个以上课程还不如直接报名学徒啦。也可以获得全部的视频资源(约4000元)开通,也可以来珠海参加一个月的任务实战训练。如果要来珠海集中学习,我会提供住宿,但不是免费的,约1500一个月吧。毕竟成本在这里,三房一厅年租6万,过年前后两个月是空置,想想也是不可能免费提供的哈

正文分割线

给学徒布置任务,根据我的教程使用salmon流程走一波airway这个转录组数据集,很快就出了结果,为了检查他数据处理的结果准确性,就把我两年前跑的结果给到他,然后让比较一下两个表达矩阵的相关性,结果出乎我意料!学习视频在:https://share.weiyun.com/5sh27An

不同流程的表达矩阵居然有批次效应

如下,可以看到我们两个人的表达矩阵,很清晰的分成了两个组:

主成分分析也是如此:

这个是不应该的,理论上来说,不同样本之间是有表达差异的,所以相关性不能太高,而同一个样本在不同流程理论上应该是不能变化太大的。

换一个数据集

起初,我怀疑是数据集的问题,所以让他继续跑了另外一个数据集,就是2018的果蝇的,同样的那个我也是有salmon流程结果,然后继续让他比较他今天的结果和我之前的结果的差异。

这个时候就清晰的看到,同样的一个样本,在salmon流程不同软件版本不同参考转录组得到的表达矩阵差异是很小的。

这个才是合理的,一个样本在不同流程表达矩阵需要几乎是一致的才行,如果换个流程就千差万别,那我们生物信息学数据分析也太不靠谱了。

那么前面的表达矩阵出了什么情况呢

随便检查一个样本的两次流程的表达量差异情况:

真的是很震惊啊,一个基因表达量差异之大,如云泥之别!


最简单的办法是直接载入bam到igv去查看该基因

很简单的网页工具拿到其基因名字:https://www.ensembl.org/id/ENSG00000167658  是 EEF2 (HGNC Symbol) 所以IGV定位查看:

很明显,这么长的一个基因,这么高的表达量,所以学徒跑流程肯定错了,这个基因有很多转录本如下:


为什么明明是高表达基因被搞成了低表达呢?

毫无疑问,学徒肯定是跑流程的时候做错了什么,我让他自己去思考,为什么跑人类的这个数据集有问题,而跑果蝇就ok呢?

以上就是我带学徒的过程,如果你看不出来我做了什么指导,你可能不适合做学徒,麻烦绕行,不要浪费我的时间,谢谢!


补充一下超级VIP入场券,并不是花钱就一定可以买,我有要去的:

  • 首先:预留时间接受培养,可以是全日制脱产一个月以上或者周六日长期加入学习小组。
  • 其次:请精心制作好简历(主要是教育背景和项目经验),以及两份推荐信(不限推荐人身份) 。
  • 最后:基本道德素养 【积极进取,诚实守信,责任心强!!!】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存