育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

基因组选择常见问题FAQ

已有 4230 次阅读 2018-8-30 20:27 |个人分类:翻译博客|系统分类:科研笔记

基因组选择常见问题FAQ

文献: FAQ for genomic selection

图片.png

这是一篇文献, 介绍GS常见的问题, 翻译并学习.

1, 我听说如果有1000个动物的基因型和表型值, 就可以进行全基因组选择, 并且准确性可以保持很多代, 这是真的么?

假的! 随着选择世代的增加, 准确性会下降, 因此需要不断的更新测序群体. 需要不断更新参考群, 可以将上代测序后有表型的个体加进去.

2, 我需要测序多少个体, 才能够达到评估准确性显著的提高?

在奶牛中, 每个公牛有很多后代, 每个组比较大, 测序个体大约是2000. 对于后代比较少, 遗传力比较低的物种, 需要加大群体数. 一般来说, 参考群个数至少要达到600, 才能达到准确性显著的提高.

3, rrBLUP 和GBLUP哪个好, 是使用两步法(先估算SNP效应值, 再计算育种值), 还是使用一步法(直接估计育种值)?

rrBLUP和GBLUP两种方法是等价的, 使用rrBLUP估计方差组分比较容易, GBLUP计算比较容易. 当权重(weights)是已知时, 两者是等价的.

4, SNP的权重重要么?

最初的研究表明, SNP的权重很重要, 但随着SNP密度的增加, 将每个SNP的权重设置为一样, 对于大部分性状都是合适的.(即假定SNP都有相同的方差分布, 效应值已知,都是微效多基因控制). 对于只有少数主效基因(QTL)控制的性状, 效果可能不太好.

5, 可以使用一个群体作为参考群, 去预测另一个群体的GEBV么?

这需要看两个群体的亲缘关系. 如果一个群体中有很多都是另一个群体的亲本或者祖先, 那么评估的准确性就比较高, 如果亲本或者祖先较少, 那么评估的准确性就比较低. 极端情况下, 两个群体没有关系, 评估的准确性甚至会低于传统的EBV(pedigree-blup)

6, 一个群体的参考群, 得到的SNP效应值, 可以用于其它群体的评估么?

不可以, SNP的效应值只能在相似的群体中才能利用, 我们通过SNP得到的是精确度更好的加性方差组分. SNP的效应值, 不能应用于其它不相关的群体中.

7, 加性效应中有多少可以用基因或连锁的SNP解释?

一般情况下, 多基因控制的性状中, 一般是5%~20%, 不过最新的研究表明, 比例可以达到50%. 不过, 这些研究可以在一些相关性比较少的个体中, 找到一些G关系矩阵.

8, 如果是候选群来源很多群体(家系)?

那这个候选群可以预测其它很多家系(因为候选群血缘比较复杂)以及他们之间简单的杂交. 但是G矩阵需要矫正和标准化, 以防止估计的偏差. 估算家系时, 准确性相对会降低.

9, 如果我们对多个世代都进行测序, 对于准确性的提高是否有帮助?

可能会, 也可能不会. 随着选择的进行, G矩阵的准确度会降低, 因为之前的候选群由于选择, 其背景发生了变化.

10, G矩阵和A矩阵有和区别?

如果系谱比较完整, 代数比较多, 结构比较单一, 那么A矩阵和G矩阵基本一致, 差异的标准差可以小于0.04

11, 构建G矩阵的方法有很多种, 他们之间的区别大么?

对于后代很多的物种(比如奶牛), 几乎所有的G矩阵构建结果得到的GEBV基本是一样的. 当群体较少, 或者系谱和基因组合并(一步法)时, 如果两者(A和G)没有矫正和标准化, GEBV可能是有偏的, 准确性也会降低.

12, 传统的动物模型, 有很多功能, 比如矫正, 母体效应, 群体分组(unknown parent groups), 杂交组等. 基因组选择可以实现这些功能么?

这些都可以使用基因组选择实现, 试想一下, GBLUP相对于ABLUP, 只是将A矩阵代替为G矩阵. 可以进行重复力分析, 母体效应等传统动物模型可以做的功能. 群体分组这一块, GBLUP研究的较少.

13, GBLUP估算的方差组分会比ABLUP估算的方差组分高么?

如果系谱是正确的话, 而G矩阵也进行了矫正, 那么他们应该是类似的. G矩阵估算的方差组分的误差可能会更小, 如果拥有了基因组信息, 可以不用使用系谱, 直接使用基因组信息进行方差组分的估算.

14, 如果使用高密度的SNP芯片, 会提高估算的准确性么?

目前还不清楚, 使用50K的芯片估算的准确性相当好了, 所以继续提高SNP密度效果不限. 如果群体比较小, 而芯片密度比较高, 会造成虚假的提高.

15, 脑洞大一点, 如果有了完整的基因组数据, 鉴别出了所有的易感SNP位点(关联的SNP), 在一个群体中或者混合群体中估算了这些SNP的效应值, 那么我们是不是可以准确预测任何个体的育种值?

这个问题好, 基因之间有复杂的网络关系, 而且易感基因和性状之间的关系通常也是非线性的, 换句话说, 你有一些易感的SNP, 想要得到表型值, 还要考虑环境, 互作等. 当然, 对于遗传力高的或者主效基因(QTL)控制的性状, 也是有一定参考意义的.

16, 如果上一个问题的结果是这样, 那么为什么动物模型可以工作的很好?

在短期的评估, 效果比较好, 而且动物模型评估时往往是针对下一个世代, 环境变化表较小.

17, 基因组的信息很多, 如果我们取得了足够的数据, 是不是可以取得突破性进展?

考虑到所有的胎次, 一对父母的后代数一般不超过100, 这些后代还会有突变.

18, 动物育种, 基因组选择的下一个技术会是什么?

没人知道, 目前, 基因组选择大大提高了准确性, 但还有进一步的利用空间, 比如杂交或者基因与环境互作等.

19, 基因组选择中, 什么是最重要的?

注意表型和基因型数据的准确性, 研究表明, 如果基因型数据质量较差, 会大大影响分析结果.

Comments by or discussions with Ignacio Aguilar,Luc Janns, Andres Legarra, Tony Reverter and Zulma Vitezica are gratefully acknowledged.



https://blog.sciencenet.cn/blog-2577109-1131909.html

上一篇:全基因组选择GS软件: MiXBLUP 2.1介绍
下一篇:asreml中sln文件多性状的分解
收藏 IP: 106.39.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 08:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部