查看原文
其他

群体遗传专题-structure图的构建与理解

lakeseafly 生信菜鸟团 2022-06-07

PCA图,structure图还有进化树称为群体结构图形三剑客。他们之间可以互相验证,也各有所长,之前介绍了PCA图,今天来讲解一下structure图。

介绍

什么是structure图? 如果你有看过群体遗传相关的文章,你对它肯定不会陌生。对那些还没有接触过的同学,那就直接上图吧:

上图是选取于一个大麦群体遗传的研究。不同的颜色种类分别代表了种群的数目,橙色代表了驯化的大麦,绿色是野生的大麦。上下有两个图是,因为这个例子中选取了两种structure分析的方法:本别是(使用全部的SNPs还有随机抽取10组样本为1000的SNPs),两个结果几乎完全一致。下图黑色的“胡须”是分析结构产生的标准差。

Structure图,其实就是一款群体遗传分析软件——STRUCTURE生成的图。这个软件是由斯坦福大学Pritchard实验室开发,最早在2000年nature genetics上的文章被使用。

其目的也很简单,分析整个群体的结构。Structure图可以展示具体群体的亚群分类,告知该群体间是否有杂交,进而产生基因交流,已经每个个体混血的程度有多少?这些信息都是PCA图还有进化树无法提供的。

Structure图构建原理

  1. 获取样本基因型;即snp calling的结果,vcf file。

  2. 一般来说我们是不知道群体中十几包含了多少个亚群,我们一般把它设置为K。然后Structure软件就会使用贝叶斯算法,推算并模拟K分别在1~x的情况下,是如何分群,及每个个体血统分布情况。

如下图你可以了解k=2,3,9的情况下,该物种是如何分群的,及每个个体的血统构成。例如K=3,有三种颜色,代表三个亚群。有一些个体,会掺杂两种颜色,证明这个个体具有杂合的血统,并且颜色的多少代表掺杂了对应祖先的比例。

但是问题来了如何决定那个K值所对应的图是对的?因为structure使用的是贝叶斯算法,每个K值模拟的结果都会产生一个最大似然值。软件中会以最大似然值对数的形式出现,该值越大,说明对应K模拟的结果越接近真实群体的情况。当K值不断增加,会出现一个饱和的最大似然值的点。该点对应的K值所生成的图就是最合适的模拟图。

Structure软件计算原理

简单说来,就是利用了计算机超强的运行能力,一开始计算机只是随机将样本分为k份)(具体看你的K值),然后在每个亚群内进行哈温平衡检验。如果不符合哈温平衡,计算机继续调整分类,然后继续检验。

Structure图的生成

Structure分析当然最经典的软件就是STRUCTURE。但Structure分析还有其他软件可以选择: ADMIXTURE、FRAPPE。这两个软件的运行速度都大大超过STRUCTURE。但FRAPPE的不足没有提供方法估算最佳K值。ADMIXTURE使用与STRUCTURE相同的模型,而且运行效率也很好,所以是一个比较推荐的软件。还有一款软件叫做FASTstructure是Structure的一个升级版,其优点是能快速处理大批量的文件。

关于具体的使用方法,我个人尝试过运行,按照流程跑了一下,但是还是还没有完全摸透并且可以灵活运用该软件。在原文链接中,给大家推荐了一个关于“structure安装包及教程”的博客。供大家学习和参考。


猜你喜欢

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

生信菜鸟团-专题学习目录(7)


还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。


▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

             










      


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存