j314159的个人博客分享 http://blog.sciencenet.cn/u/j314159

博文

GWAS和Genomic prediction概念、原理及应用

已有 19256 次阅读 2014-11-25 17:05 |个人分类:全基因组关联分析GWAS|系统分类:科研笔记| style, color, black, prediction

全基因组关联分析GWASGenome-Wide Association Study;

基本概念:利用分布于全基因组范围内的分子标记,基于它们与分析性状的连锁不平衡关系,通过各种统计分析方法,以获得与这些性状关联的候选基因或基因组区域。

基本原理(以SNP分子标记为例):1.在一定群体中选择病例组和对照组(对于数量性状则可以是连续分布的群体),比较全基因组范围内所有SNP位点的等位基因或者基因型频率在病例组和对照组间的差异,如果某个SNP位点的等位基因或基因型在病例组中出现的频率明显高于或低于对照组,则认为该位点与疾病间存在关联性2.之后,根据该位点在基因组中的位置连锁不平衡关系推测可能的疾病易感基因.

全基因组预测:Genomic Prediction

基本概念:Genomic prediction exploits historical genotypic and phenotypic datato predict performance of on selection candidates based only on theirgenotypes, attempting to predict phenotypic variation from genomic information.


●  基本原理

1.首先,建立一个参考群体Reference Population),对参考群体的所有个体进行表型和全基因组的基因型测定,通过关联分析估计出每个标记的效应值Marker Effect2.然后,根据上一步得到的标记效应值对没有表型记录但有基因型信息的预测群体Inference Population)直接估计出他们的基因组育种值(Genomic Breeding Value, GBV)。

样本选择:原则上越多越好,至少上千

 SNP获取:芯片或者测序

数据质控:

  SNP水平:

 MAP<0.01(or 0.05)剔除;

 符合Hardy-Weinberg平衡剔除;

 Callrate < 90% (or 95%)剔除。

个体水平:

 基因型缺失大于10% (or 5%15%20%)的个体剔除。

 1关联分析模型  

   一般线性模型(GeneralLinear Model)y  =  Xα  + Zβ  +  e

混合线性模型(Mixed Linear Model)y  =  Xα+ Zβ + Wμ+ e

y:要研究的表型性状;

Xα固定效应FixedEffect),影响y的其他因素,包括群体结构、性别、年龄等因素;

Zβ标记效应(MarkerEffect);

Wμ随机效应(RandomEffect),这里一般指个体的亲缘关系。


2、关联分析统计方法

 BayesBayes ABayes BBayes CBayes Cpi

 统计软件:GenSelGenABEL,均为R程序包。

 CMLM (Compressed Linear Mixed Model)

 统计软件:GAPITTASSEL

EMMAX (Efficient Mixed Model Association)

 统计软件:emmax

 GBLUPGenomic Best Linear Unbiased Prediction):专门用于Genomic prediction

 统计软件ASReml


3、关联分析中群体分层校正

校正方法:

 基因组对照法

Genome Control

 结构关联法

Structured Association

主成分分析法

Principal Component Analyses


群体分层检验:Q-Qplot

2.3  GWAS多重检验校正



Bonferroni校正法:将单个假设检验得到的每个位点的P值乘以本研究中同时进行假设检验的次数(即乘以所选择的遗传标记数量)如果校正后的P值仍然小于0.05,可判断改位点与疾病之间的关联有显著性。


递减调整法(Step-DownAdjustment:首先将最小的P值乘以所选择的位点数目m,排列在第二的P值乘以(m-1),其他的P值依次乘以(m-1)(m-3),依次类推,排在最后的P值乘以1,校正后的P<0.05的位点可认为与疾病的关联有显著性。


控制错误发现率(False discoveryrate)法:首先将未校正的P值从小到大排序,最大的P值保持不变,其他的P值依次乘以系数(位点总数/P值的位次),校正后的P<0.05的位点可认为与疾病的关联有显著性。


2.4  Genomic prediction预测公式结果验证

交叉验证法:采用Jackknife法,即每次抽出一定数量(一个或多个)个体作为验证个体,剩余部分作为参考群体,建立新的公式来预测验证个体的基因组育种值。


独立验证法:指对与参考群体没有关系的群体,采用基于参考群体得到的预测公式俩计算他们的基因组育种值。


预测准确性:线性回归,R2越大,准确性越高。如图,a>b


2.5  影响GWAS& Genomic Prediction准确性因素

1.样本大小  2.标记类型(e.g. SNP 或者单体型)  3.连锁不平衡程度  4.不同统计方法






https://blog.sciencenet.cn/blog-292064-846224.html


下一篇:高薪诚聘信息分析工程师!--动植物重测序方向!
收藏 IP: 111.161.97.*| 热度|

1 邓飞

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 19:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部