育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

读文献:全基因组选择模型进展及展望

已有 2114 次阅读 2019-10-15 08:24 |个人分类:文献解析|系统分类:科研笔记

令人击节的一段话:

随着全基因组选择统计模型的不断改进优化,模型的稳定性及准确性不断提高,但是依然面临两个重要的挑战,即计算准确性和计算效率;直接法(GBLUP为代表)计算效率较高,但是计算准确性略差于间接法(BayesB为代表),虽然学者对直接法进行了改进,但是由于改进的策略中人为设定参数较多,因此模型的预测准确性受主观因素影响较大;间接法计算准确性较高,但是由于参数求解过程中计算量庞大,且无法实现并行运算,而育种讲求时效性,所以难以高效指导育种实践;因此,如何优化模型,尽可能减少人为设定参数,与机器学习方法有效结合,并融入高效可并行运算,既能保证较高准确性的同时,大大提升计算效率,是未来全基因组选择模型优化的方向。

1. 参考文献

尹立林, 马云龙, 项韬, et al. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(02):9-18.

2. 全基因组选择方法介绍

全基因组选择是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值估计准确性等加快遗传进展,尤其对低遗传力、难测定的复杂性状具有较好的预测效果,真正实现了基因组技术指导育种实践。

关键词:

  • 高密度标记

  • 早期选择

  • 缩短世代间隔

  • 加快遗传进展

  • 低遗传力,复杂性状预测较好

3. 分子标记辅助选择局限性

  • 目前经过验证的基因少,解释变异少

  • 大部分经济性状遗传力低,数量性状,MAS效果有限

4. 基因组选择直接法和间接法

统计模型是全基因组选择的核心,极大地影响了基因组预测的准确度和效率。根据统计模型的不同,全基因组选择的模型大体可分为两大类:

  • 第一类是直接法,此方法把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值;

  • 第二类是间接法,此方法则首先在参考群中估计标记效应,然后结合预测群的基因型信息将标记效应累加,获得预测群的个体估计育种值

直接法公式:

  • 混合线性模型公式:

  • G矩阵计算公式:

  • REML计算BLUP值

间接法公式:

  • 矩阵模型:

  • 贝叶斯系列:

5. 不同改良GS方法效果比较

  • 利用系谱信息的BLUP模型准确性明显低于利用基因组信息的模型;

  • 间接法模型准确性优于GBLUP模型,计算时间更长,但与基于GBLUP改进的模型准确性基本等同;

  • 虽然间接法模型不断改进,但准确性并未明显提升;

  • 将大效应标记作为固定效应的Fixed GBLUP可提高GBLUP准确性,但是,由于加入的大效应标记较少,只能解释部分遗传变异,提升效果没有利用权重基因组关系矩阵的Weighted GBLUP高;

  • 对于分型个体而言SSBLUP相对于GBLUP并没有明显优势,而对于未分型的个体能够大大提高预测准确性。

6. 直接法 VS 间接法

性状遗传构建复杂多样,目前还没有一种模型能广泛适用于所有性状[56-57]。随着全基因组选择统计模型的不断改进优化,模型的稳定性及准确性不断提高,但是依然面临两个重要的挑战,即计算准确性和计算效率;直接法(GBLUP为代表)计算效率较高,但是计算准确性略差于间接法(BayesB为代表),虽然学者对直接法进行了改进,但是由于改进的策略中人为设定参数较多,因此模型的预测准确性受主观因素影响较大;间接法计算准确性较高,但是由于参数求解过程中计算量庞大,且无法实现并行运算,而育种讲求时效性,所以难以高效指导育种实践;因此,如何优化模型,尽可能减少人为设定参数,与机器学习方法有效结合,并融入高效可并行运算,既能保证较高准确性的同时,大大提升计算效率,是未来全基因组选择模型优化的方向。

7. GS面临的挑战

  • 1)全基因组选择主要考虑加性效应,对于显性效应及互作效应等未纳入到育种值估计模型中[58];

  • 2)全基因组选择目前主要在品种内进行,品种间由于遗传背景不同,跨品种预测准确性难以保证;

  • 3)同品种间亲缘关系太远的个体育种值预测效果也不理想,如不同育种公司间由于育种策略不同,选择方向差异,导致同品种间遗传背景也不同,难以实现跨公司预测;

  • 4)全基因组选择只用到基因组信息,大量的多组学研究结果利用不够充分,如何将多组学信息进行整合,通过整合组学提高选择准确度也是目前待解决的问题;

  • 5)随着全基因组选择的逐渐应用,分型个体数目越来越大,相比传统BLUP的稀疏矩阵,利用基因组信息计算的稠密矩阵给混合模型参数估计及模型求解带来了巨大的挑战,通过数学或着计算机手段简化计算复杂度,才能更高效利用庞大的基因组数据甚至其他各组学数据;

  • 6)个体分型主要是芯片技术,如猪illumina 60K SNP芯片等,芯片分型具有良好的稳定性,但由于密度不足,使得全基因组选择对LD的依赖性强,通过测序手段可以得到较高密度SNP标记从而减少对LD的依赖,同时测序方法可以捕获不同品种间所有遗传变异,可能实现跨品种预测,并且测序能够得到更丰富的遗传信息,如CNV等,对于亲缘关系较近的群体,可以通过填充技术将芯片个体标记密度填充到测序水平。因此,测序技术的应用将成为全基因组选择新时代的转折点。

8. GS未来的发展

尽管测序技术对于全基因组选择具有众多好处,但也存在一些问题,测序技术已经经历了3代技术革新,检测质量及完整性越来越高,高质量的测序结果需要更高的测序深度,意味着测序成本更昂贵,并且测序数据庞大,主流的分析软件处理速度较慢,使用复杂繁琐,对于计算资源的配置需求较高,因此如何快速、有效地储存、处理及分析数据是测序技术应用于全基因组育种的重要挑战,另外,测序只能检测参考基因组中已知的序列和基因信息,对于未知的基因序列和基因还不能进一步深入研究。当然,随着测序方法和芯片技术的不断成熟,未来个体分型费用将不断降低,分型准确性不断提高,全基因组选择将逐步替代传统育种方法,为动物育种改良带来一次新的技术革命。

wechat.jpg



http://blog.sciencenet.cn/blog-2577109-1201959.html

上一篇:混合线性模型笔记1:模型假定
下一篇:linux 弹出U盘: 目标忙 解决方案

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-12-5 08:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部