gwas分析实例,GWAS原理实例

3.提出基于自然群体或种质资源群体的关联遗传学策略;4.与关联作图分析又称连锁不平衡(LD),可以直接利用自然群体中丰富的表型和基因组变异来确定控制数量性状的目标基因 。以前应用基于家系群体的数量性状基因座作图分析方法,在林木复杂性状的遗传分析方面取得了显著进展 。

1、2021-01-27林木全基因组关联 分析(GWAS1 。林木的目标改良性状多为数量性状,在全基因组水平上由多个基因位点共同控制 。它们的遗传变异效应可分为基因的加性和显性效应、基因的上位性效应和基因环境的互作效应 。以前应用基于家系群体的数量性状基因座作图分析方法 , 在林木复杂性状的遗传分析方面取得了显著进展 。2.然而,由于大部分树系作图是基于低代杂种群体如F1、F2或BC1 , 遗传变异丰富度低,染色体重组事件有限 。

3.基于自然群体或种质资源的关联遗传策略为分析数量性状的遗传基础提供了新的途径 。4.关联分析,又称连锁不平衡(LD)作图,可以直接利用自然群体中丰富的表型和基因组变异来确定控制数量性状的目标基因 。特别是多年生森林类群在适应复杂多变的自然环境过程中产生了丰富的表型变异和DNA序列变异,是研究相关作图的理想材料 。

2、如何使用Python绘制GWAS 分析中的曼哈顿图和QQ图 Manhattan图和QQ图是全基因组协会(GWAS) 分析中出现频率最高的两个图 。它们基本上是GWAS的标准,几乎可以在GWAS的每一篇文章中看到 。在我上一篇关于GWAS的博文中 , 我也解释了它们的功能和要传达的信息 。这里我们只重点介绍如何使用Python和geneview来有效地使用它们 。首先准备一些数据作为例子 。我在这里展示的数据是GOYA , 一项由丹麦人在2011年做的关于年轻人肥胖的GWAS研究 。数据也是从他们发表的结果中获得的,总共有5,

633 , 而正常对照是2740,从样本量来说还不错 。为了使用方便,我做了一些相关的处理,包括PED和图谱文件到GEN文件的生成,重复了casecontrol 分析 , 计算了芯片上研究的肥胖相关SNP位点的显著性程度(即pvalue) 。最后我把结果数据提取出来,做成数据集下载(15.6Mb,csv格式) 。

3、全基因组关联 分析(GWAS前段时间有个小可爱问我为什么她的QQ图特别飘 。如果不明白怎么算,请看下图:理想的QQ地图应该是这样的:我当时的第一反应是:1)是群体分层造成的;2)表型分布有问题 。所以让她查一下数据的群体分层,没问题的话再看表型分布 。这几天比较闲,所以我觉得有必要整理一下这个优雅的QQ图,到底是怎么回事,怎么确定这么优雅的QQ图有没有问题 。

也可能是混淆偏倚,比如人群分层 。如果样本与来自欧洲、非洲、亚洲等地的人群混合,每个人群的SNP频率差异很大 。如果不控制人群分层,在分析关联时会有很多SNP位点偏离预期值 。很久以前,如果有一个优雅的QQ图,可以和膨胀系数(膨胀系数的计算)一起看 。如果膨胀系数接近1(比如1.01,1.2不接近1) , 那么还是可以接受的 。

4、GWAS 分析qq-plot可以得到什么信息上图:我们进行GWAS 分析时,是基于连锁不平衡,一些SNP位点与一个性状紧密连锁,所以这些位点与该性状显著相关 。通常,这些突变源于两个方面 。那么 , 当我们进行GWAS分析,我们如何确定发现的SNP位点与我们关心的性状显著相关?QQplot是QuantileQuantilePlot 。
【gwas分析实例,GWAS原理实例】其中纵坐标是实际观察值P,用log10(P)表示,横坐标是期望值,也用log10(exp)表示 。实际上,分位数是均匀分布的,例如,我们总共识别了100个SNPs,因此第一个期望值是log((1/100) 1),第二个是log ((2/100) 1)...log ((100/100) 1),所以会出现一条直线,它 。

    推荐阅读