查看原文
其他

非靶向代谢组学数据分析连载(第零篇引子)

文涛聊科研 微生信生物 2022-05-08

(之前这篇已经发过了,但是题目错误,中间的链接也可能不可用了,此次我更新了链接和修改了题目,明日开始连载:多多捧场哦)

时间慢慢过去了,答应过的事情哭着也要做完,代谢组分析的全套,这次我来送给大家:


目前对于使用代谢组发文的数量是越来越多了,真的是一目了然啊,2018年过半,文章的数量已经和2017年差不多了,势头很猛,早做打算不至于落的被动:

本次我带给大家的是非靶向代谢组学的数据,GC-MS比较老,测的人也比较多,数据库会比较全,当然数据量很大,处理起来会费劲,之前给大家分享的16s扩增子数据,otu.table里面OTU的数量是几千到几万不等,而非靶向代谢组学的数据往往是在几百到几千个峰,这里引用MetaboAnalyst的ppt为大家做一个做一个组学的数据量的简单比较:


Genomics

DNA  sequence

100,000  - 1,000,000

Transcriptomics

Gene  expression

10,000  - 100,000

Proteomics

Protein  expression/ interaction

1,000  – 10,000

Metabolomics

Compound  concentration

100  – 1,000


我要分享给大家的GC-TOF-MS非靶向代谢组学的数据的处理过程:

这里我将直接向大家展示在公司测个的数据,也就是在这些操作完成后的数据(这些处理相比之后的数据分析可能并不重要,所以我可能在最后进行分享,或者就不分享了):

使用ChromaTOF软件(V 4.3x,LECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。


这份数据我在biotree测得,测定于2017年,分析是在今年上半年完成了,但是最为讲解使用数据,我将数据进行了一改动,是目前很新的一份sample供大家学习,打开是这样的;



这里我展示两组的数据,这批数据共展示了708个峰值,这里面的数值表示的是分面积值,第一行id表示的是化合物名称,在这一行这里主要有三种类型,第一种就是化合物的英文名称,第二中就是unknow表示完全不清楚了,第三种是Analyte是似乎有一定的概率匹配上数据库的,但是和数据库中相比相似度不够大,不能确定是什么物质,缺失值表明未能测出来;


另外一份文件就是mapping,这是我处理16s数据延续下来的习惯,其实这样就不必在R中构造一个分组变量了,虽然我们这批数据量很小,对于新手来讲,可能更容易入手;

刚开始我们就需要这两份文件,在之后的分析过程中可能我会持续上传一些文件,还有一些需要使用的文件,我都会及时给出链接,方便大家下载使用;当然相应的R脚本我也会持续放给大家,都是经过多次测试的脚本,大家将文件全部下载下来,使用Rstudio打开脚本,只需要将工作路径更换,即可重现结果;


下面是原始数据的百度网盘链接:

链接:https://pan.baidu.com/s/1iuFm6p_j-AgY4nUSyS1p3w 密码:23r7

如果失效,请及时留言


下面我首先来讲这份数据的产生过程,大家在处理的过程中会更清楚一些:


经历过以上过程,我们就得到了一张表格:

这份处理流程是我在biotree测定,也就是这份数据的处理流程:

代谢物提取

1.        转移样本于2mL EP管中,加入1mL提取液(甲醇水体积比=3:1),再加入10μL

核糖醇,涡旋30s     

2.        加入瓷珠,45Hz研磨仪处理4min,超声5min(冰水浴);

3.        将样本4离心,13000rpm离心15min

4.        小心移取0.75mL上清液于2mL进样瓶(甲烷硅基化的)中;

5.        在真空浓缩器中干燥提取物;

6.        向干燥后的代谢物加入40μL甲氧胺盐试剂(甲氧胺盐酸盐,溶于吡啶20mg/mL),

轻轻混匀后,放入烘箱中80孵育30min

7.        向每个样品中加入50μLBSTFA(含有1% TMCS, v/v),将混合物70孵育1.5h

8.        随机顺序上机检测。



上机检测

Agilent 7890气相色谱-飞行时间质谱联用仪配有Agilent DB-5MS毛细管柱(30m×250μm×0.25μm, J&WScientific, Folsom, CA, USA),GC-TOF-MS具体分析条件如下:

4. 仪器参数

项目

参数

进样量(Sample Volume

1μL

分流模式(Front Inlet Mode

Splitless Mode

隔垫吹扫流速(Front Inlet Septum Purge Flow

3mL min−1

载气(Carrier Gas

Helium

色谱柱(Column

DB-5MS30m×250μm×0.25μm

柱流速(Column Flow

1mL min−1

柱箱升温程序(Oven Temperature Ramp

80°C hold on 1min, raised  to 290°C at a rate of 10°C min−1, hold on 12min

前进样口温度(Front Injection Temperature

280°C

传输线温度(Transfer Line Temperature

295°C

离子源温度(Ion Source Temperature

220°C

电离电压(Electron Energy

-70eV

质量范围(Mass Range

m/z:50-600

扫描速率(Acquisition Rate

10 spectra per second

溶剂延迟(Solvent Delay

8.06min


数据处理

使用ChromaTOF软件(V 4.3xLECO)对质谱数据进行了峰提取、基线矫正、解卷积、峰积分、峰对齐等分析。对物质定性工作中,使用了LECO-FiehnRtx5数据库,包括质谱匹配及保留时间指数匹配。

在本次实验中共检出了 708 个峰,详细情况请参见数据附表。这里有十二个样品,我们分析只做六个



质量控制

1、过程质控

样品的检测要持续很长时间,尤其是当样本量很大的时候。在检测过程中实时地监控仪器稳定性、信号是否正常就十分重要。及时发现异常,尽早将问题排除,以保证最终采集数据的质量。

①  内标响应情况

由图3可以看到内标核糖醇在样品中的保留时间和峰面积稳定性很好。说明仪器数据采集稳定性很好。

3. 内标核糖醇EIC

①  物质残留情况

通过对空白样品的检测可以考察在检测过程中物质残留情况。从图4中可以看到空白样品中无显著峰检出,说明物质残留控制的很好。不存在样品间的交叉污染。

                           

4. 空白样品TIC


以上过程到最后我们得到一张表,都是由公司做的,如果要公司做后续的分析,会更贵,相比之下,我们研究生劳动力这么不值钱,我们自己倒确实会省钱,为了你的老板,赶快学技术吧!

最后我们欣赏一下代谢通路美图吧!




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存