40+Pbase生物大数据，为你所用！（Part1入门篇）

百迈客生物 2022-08-10

不

负

青

春

献给正在奋斗的你

实验停止、分析数据不够、工作量不达标、计划节奏的乱套，让本就焦虑的研究生涯更添一层风霜。

疫情当下，可能在很长的一段时间都要维持现状，无论是自媒体人还是各行专家、公知大V，都在预判疫情影响下的世界之变化，大到经济体制全球格局，小到个人生活与需求管理。毫无例外，这场疫情，也会影响着科研的发展方向及研究策略。

科研，该何去何从？

随着测序技术的不断升级，测序成本直线下降，测序通量越来越高，高通量测序技术已广泛应用在科研、医疗、健康等各个研究领域。测序技术在生物学研究中的发展，从最早的Genome Center唱独角戏，再到基因科技服务公司的崛起，“pipeline”标准流程创建并广泛应用。但是，近年来，随着研究学者对数据理解的深入，思路大大开拓，加上大数据的积累，各种个性化的数据分析想法大量涌入脑海，开始形成更多独具特色的“personalized”模式。孤立的单个项目的数据分析形式越来越不能满足科研的需要，基因大数据的价值已经在很多方面超越了自己新测序项目的产出。

图1 测序技术的发展历程及趋势

随着基因大数据爆发式增长，收录测序数据的公共数据库规模开始呈现出指数级增长。以NCBI上的高通量测序数据库 SRA 数据库为例，截至目前，该数据库已收录超过 41 Pbase 的测序数据，其中包括263,804项研究的7,044,129个样本数据。虽然公共数据资源如此丰富，但目前国内研究者并不能高效的对这些公共数据进行有效整合利用。早在2016年，Nature reviews genetics便报道称，目前已发表的高通量测序数据利用率不足20%，很多有价值的信息被研究者所忽略。

A. SRA数据库数据量指数级增长

B. 热门研究物种数据量占比

C. 不同物种研究热度及项目情况统计

图2 SRA数据库基本统计信息

因此，基于公共数据，从数据中挖掘信息、分析利用，转变为应用价值，将大量的基因样本测序后的“数据大” ，变成真正的“大数据”，将成为科学研究发展的一个新趋势。
在数据利用方面，最有代表性的是人类癌症基因信息的数据库（Cancer Genome Atlas/TCGA），见图3。围绕TCGA已经有很多重量级文章出现，PubMed收录的利用其进行数据挖掘发表的文章已经超过8000篇。可以说，已经公开的高通量测序数据如同“金矿”一般，具有极高的学术价值。然而，大量的基因数据依然沉睡在那里，一方面由于研究学者不方便获取符合自己需求的数据，数据的整合、分类、下载耗费较多的精力；另一方面，缺少一个高效、易用的大数据分析平台，自主搭建投入的人力、财力及硬软件设施都是巨大的挑战。

图3 TCGA数据库收录数据情况

2016年，百迈客团队开始搭建BMKCloud共享数据库，数年打磨，其目的是让科研学者能更高效、更快速的利用公共数据，提高公共数据的利用效率。让大数据的挖掘不仅仅局限于癌症的研究，而能够在动物、植物、微生物等研究中都得到很好的利用。BMKCloud与NCBI的SRA、GEO等高通量测序数据库接轨，实时更新，为开展各个领域的研究提供准确、全面、最新的测序原始数据和相应文献的整合检索平台，并与各项可视化分析流程无缝对接。科研工作者可以根据物种、类型、研究性状、研究结果、测序方法等设置快速检索感兴趣的数据，所有数据均可一键导入平台中“我的数据”中保存，然后利用百迈客云提供的30+大数据分析平台和100+多款工具软件进行数据的可视化深度挖掘，高效、快速的挖掘基因大数据。

图4. 公共数据分析传统方案 vs BMKCloud解决方案

说到这里，想必大家都很好奇，如何利用公共数据进行挖掘，在下期稿件中，我们将围绕基于“公共数据+”的研究思路具体展开讨论，敬请期待~

如果您有何疑虑或建议，欢迎留言区留言，积极讨论哦~

文末小福利

BMKCloud 目前已上线200+项免费课程，涵盖重测序、转录组学、蛋白代谢、微生物等多个方向的技术介绍、报告解读、热点追踪和编程实操等模块，满足不同科研需求，并持续更新ing。

只需注册云平台（http://www.biocloud.net/），在“课堂”栏目即可观看，赶快行动吧！

文：梁若冰

排版：市场部

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

40+Pbase生物大数据，为你所用！（Part1入门篇）

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七

生成图片，分享到微信朋友圈

40+Pbase生物大数据，为你所用！（Part1入门篇）

您可能也对以下帖子感兴趣