PJL的个人博客分享 http://blog.sciencenet.cn/u/oceanside

博文

Grassland Research | 爱尔兰都柏林大学:多年生黑麦草季节性饲草产量的基因组预测

已有 835 次阅读 2023-12-21 12:29 |个人分类:科技期刊|系统分类:论文交流

image.png

文 章 信 息
期刊名称:Grassland Research(草地研究)
中文标题:多年生黑麦草季节性饲草产量的基因组预测
第一作者&通讯作者:Agnieszka Konkolewska(爱尔兰都柏林大学)

编译者:简四鹏 兰州大学草地农业科技学院 在读博士生

说明:该文仅代表编译者对论文的理解,如需参考和引用相关内容,请查阅原文。

摘 要

研究背景——基因组选择有潜力加速多年生黑麦草育种中的遗传增益,前提是能够以足够准确性预测诸如饲草产量之类的复杂性状。

研究方法——在这项研究中,我们比较了建模方法和特征选择策略,以评估季节饲草产量的基因组预测模型的准确性。

研究结果——总体而言,在使用完整数据集时,模型选择对预测能力的影响有限。对于基于基因组的最佳线性无偏预测模型,春季放牧(0.78)、夏季放牧(0.62)和第二次刈割青贮料(0.56)的平均预测准确性最高。在特征选择策略方面,使用不相关的单核苷酸多态性(SNP)对预测能力没有影响,从而可能减少数据集的维度。通过全基因组关联分析,我们发现了一个与春季放牧相关的显著的SNP标记,该标记位于编码糖基转移酶的基因区域,该酶负责木聚糖的岩藻糖基化——植物细胞壁的主要成分。我们还提出了一种方法来增加基因组预测模型的可解释性,即使用基因本体学富集分析。

研究结论——特征选择的方法在低成本基因分型平台的开发中将是相关的,以支持基因组选择的常规和经济有效的实施。

关键词——forage yield, genomic selection, perennial ryegrass breeding

背景

多年生黑麦草(Lolium perenne L.,以下简称黑麦草)是在温带海洋性气候条件下支持牧草农业的关键物种。在培育新品种的黑麦草时,育种者关注关键性状,如饲草产量、营养价值和抗病性。在爱尔兰用于支持农民选择最适合其企业的品种的牧草利润指数(PPI)中,饲草产量是最重要的性状,占据了46%的权重(Tubritt等,2021)。在PPI中,饲草产量进一步细分为模拟放牧条件下的季节饲草产量和保护管理条件下的产量。
不幸的是,黑麦草繁殖周期长,必须使用以种群为基础的育种方法,这导致了基因增益有限(McDonagh等, 2016)。畜牧业农业系统提供新的育种,需要提高关键性状基因的获得,这包括在生长季节的肩部(即早春和晚秋)提高产量,以支持一个延长的放牧系统,该系统有可能减少甲烷排放和增加盈利能力(Arsenault等,2009;Chianese等,2009)。
当针对牧草产量改良时,常常采用半同胞或全同胞家族的基因型反复选择方法(Conaghan和Casler,2011),这是由于在个体独立植株上测量的饲草产量与在竞争草坪条件下测量的饲草产量之间的相关性较差。一旦确定了表现最佳的家族,就从这些家族中选择个体植株(随机选择或在田间试验中选择存活的植株)作为新一轮选择的父本,或者用于产生新的合成材料。基因组选择(GS)被认为是增加牧草育种遗传收益的一种有希望的方法(Hayes等,2013)。特别是,基因组选择(GS)已被确定为支持多年生黑麦草育种中家族间和家族内选择的工具,并且模拟研究明确展示了这种方法增加饲草产量遗传收益的潜力(Esfandyari等,2020; Jahufer等,2021)。为了成功应用基因组选择(GS)在黑麦草育种中,我们需要以下两个条件:(i)基于足够精准的基因组数据,能预测复杂性状(如饲草产量)的模型;(ii)成本效益高的基因分型方法,以收集选择候选饲草的基因组信息。
在基因组估计育种值(GEBVs)的预测中,通常选择基于岭回归(RR)(基因组最佳线性无偏预测—GBLUP)的线性方法作为基准。贝叶斯方法(来自所谓的贝叶斯字母表:BayesA、BayesB、BayesC等)被应用于在新的未观察数据上保持模型的泛化能力并克服过拟合(Meher等,2022)。如果通过一些约束来估计特征的重要性,就可以限制过拟合,这种策略称为“正则化”或“惩罚”(Pérez‐Enciso和Zingaretti,2019)。除了贝叶斯正则化外,还有另外两种常见的正则化策略,称为L1和L2范数。LASSO(最小绝对收缩和选择算法)是使用L1正则化的模型的一个示例,而RR使用L2正则化(Hoerl和Kennard,1970;Tibshirani,1996)。
数据的高维度,其中存在许多相关的标记物,也可能导致模型过拟合。因此,此前已经提出了几种特征选择方法。除了随机选择标记物外,大多数特征选择方法使用感兴趣的特征来找到最佳的单核苷酸多态性(SNP)候选物以进行建模。这包括例如计算标记物之间的连锁不平衡,对训练人群中的更不完整的标记物进行修剪;基于与感兴趣的特征的线性关系进行单一方差分析来选择单个标记物(Charmet等,2020);在验证集中最大化平均判定系数的随机优化算法(Rincent等,2012);以及使用遗传算法启发式地选择标记子集(Konkolewska等,2021)。
克服维度问题的另一种方法涉及核方法的使用。核方法已经在植物和动物育种中用于基于谱系的选择和基因组预测(GP)(Xavier,2021)。GBLUP是最流行的基于核方法的方法,它使用基于线性核的岭回归(‘KRR’)(VanRaden,2008)。另一方面,使用高斯核的再生核希尔伯特空间回归(‘RKHS’)是非线性核的一个示例(Ubbens等,2021)。
最近,计算速度有了显著提高,并且反向传播学习算法得到了发展,这导致越来越多的尝试使用人工神经网络(ANNs或简称NNs)来建模复杂的生物过程(Azodi等,2019;Montesinos‐López等,2021)。人们假设在有足够的数据的情况下,用于基因组预测的NN模型可以在不指定基因底层架构和模型假设(表型显性、上位性等)的情况下进行训练。例如,多个标记物在个体上可能具有微不足道的效应,但在组合考虑时可能具有显著效应。这些是非线性关系的模式,可以用NNs进行建模(Ubbens等,2021)。理解NN拓扑结构需要关于其由多少个神经元和层组成的信息。在NNs内部,神经元(或称为节点)是一个数学函数,给定特定输入可以产生输出。一个或多个神经元可以形成一个层,这是一个在一个阶段处理数据的操作块。NNs的训练时间以epochs的数量给出,epochs指的是完整训练数据集的一个循环。随着周期数的增加,NN可能会在训练数据上迅速过拟合(Ubbens等,2021)。贝叶斯正则化人工神经网络(BRNNs)是使用贝叶斯正则化来限制过拟合的NNs的一个示例(Pérez‐Rodríguez等,2012,2013)。
基因组预测(GP)模型通常被认为在解释能力方面存在限制(Eggen,2012),特别是与能够找到与表型相关的显著标记物的全基因组关联研究(GWAS)相比较(Tsai等,2020)。然而,虽然GWAS通常提供可操作的数量性状位点和SNP,但所发现的变异通常仅解释了复杂性状遗传性的一小部分(Fridley和Biernacka,2011)。与GWAS不同,GP建模属于“组学”研究领域,例如转录组学、代谢组学等。人们认为“组学”研究可以更好地理解底层的生物过程,这些生物过程与已识别的变异有关(Chen等,2019)。基因集分析(GSA)是“组学”研究中常用的方法,可以有助于发现有关复杂性状的附加信息(Fridley和Biernacka,2011)。GSA的一个示例是基因本体(GO)富集分析,该分析考虑了基因注释,其中涉及到基因的分子功能(个体基因产物的分子活动)、细胞组分(基因产物活动的位置)或生物过程(个体基因产物有所贡献的更大过程)(Aleksander等,2023;Ashburner等,2000)。
在本文中,我们专注于比较建模方法,并评估基因组预测(GP)模型在多年生黑麦草的季节性饲料产量特征上的准确性(图1)。饲料样本来自爱尔兰的一个田间试验,分为两种管理方式:频繁放牧和保护。具体而言,我们关注保护管理下的第一、第二、第三次刈割青贮饲料和总青贮饲料产量,以及模拟放牧管理下的春季、夏季、秋季和总放牧产量。我们比较了11个预测模型:基于标记物的(岭回归最佳线性无偏预测[rrBLUP]、贝叶斯岭回归[BRR]、贝叶斯线性回归[BLR]、贝叶斯Lasso[BL]、BayesA、BayesB、BayesC、LASSO)和基于核的(基因组最佳线性无偏预测[GBLUP]、再生核希尔伯特空间回归[RKHS]、贝叶斯正则化人工神经网络[BRNN]),以及几种减小SNP数据集大小的特征选择策略,并提出了一个工作流程,通过基因本体富集分析来增加训练模型的解释性。

材料和方法

数据:

现场评估:
在2018年,一批多年生黑麦草(F2)家族(n = 266)在爱尔兰卡洛县Teagasc Oak Park的田间试验中种植(纬度52.8567,经度-6.9127)。这些家族是通过对取自分株田间试验的植株进行配对交叉(亲本植株来源在Byrne等人的文章(2017)的表2中描述,生成F2家族的具体交叉可在Figshare存储库中找到)并将F1种子进行内交配来生成F2家族。这些家族在(i)保护管理和(ii)模拟放牧管理下分别建立了两个独立的田间试验。在每种管理下,F2家族被分为21个试验之一。每个试验包括18个条目(16个测试家族和2个对照品种)。每个试验的实验设计是一个随机完全区组设计,具有两个重复。所有小区的大小为1.5 m × 6.0 m(如Conaghan等人,2008年的描述)。在保护管理试验中,于3月中旬以120 N kg ha−1的速率施肥,然后在第1、2和3次收割后立即施用额外的75 N kg ha−1。在频繁刈割管理试验中,于2月中旬以75 N kg ha−1的速率施肥,然后在刈割后立即施用额外的40 N kg ha−1;9月15日后不再施肥。根据土壤测试建议为刈割系统施加P和K(David和Wall Mark,2020)。在建立年份之后,家族在2019年和2020年都在两种管理方式下进行了评估。有关刈割天数的信息可以在附表S1中找到。在模拟放牧管理情况下,2019年进行了五次收割,2020年进行了七次收割。在保护管理情况下,重点是青贮刈割,在2019年和2020年都进行了三次收割。在每次收割中,使用Haldrup牧草收割机进行刈割并获得新鲜重量。使用线性混合模型考虑实验设计,并获得六个产量特征的最佳线性无偏估计值(BLUEs):第一次刈割青贮饲料、第二次刈割青贮饲料、第三次刈割青贮饲料、春季放牧、夏季放牧和秋季放牧。为了获得BLUES,我们使用了R软件包lme4中的lmer函数(Bates等人,2015),在其中指定了固定效应(种群的ID和年份)和随机效应(实验编号,以及在实验内部的块嵌套结构)。两种管理方式下所有刈割的总产量分别用作两个附加特征:总青贮饲料产量和总放牧产量。使用方差分量估计广义遗传率(方程1),使用R软件包lme4进行计算。使用corrplot R软件包构建和可视化了相关系数矩阵(Wei和Simko,2021)

基因型数据:

在一个温室中,从266个F2家族中每个家族取约0.8 g种子在小盆栽中发芽,并允许形成草坪(约10天)。从每个F2家族中采集叶片材料,通过将草坪剪至约3厘米,丢弃剪下的部分,然后将下部的3厘米刈割到信封中并进行冷冻干燥。在50毫升的离心管中,用钢球(直径1厘米)在RETSCH混合研磨机上研磨每个家族的冷冻干燥材料,直至磨细,然后提取每个家族的基因组DNA。采用基因组复杂性还原与限制酶结合的测序方法进行基因分型(Elshire等,2011)。文库构建在LGC Genomics(德国柏林)进行,使用限制酶PstI和MspI进行双酶切。生成的文库在Illumina Nova-Seq. 6000上进行测序(100bp的单端读取)。在使用cutadapt(Martin,2011)去除适配体残余并过滤掉最终长度小于20碱基的读取后,每个F2家族的平均读取数为6.8百万。不与限制酶位点匹配的5'端的读取也被丢弃。序列数据使用BWA‐mem(Li,2013)对参考基因组(Nagy等,2022)进行比对,利用bcftools mpileup和call(Danecek等,2021;Li,2011)识别变异位点,最小映射质量设置为30。最初,应用了最小过滤,并获取了每个样本在基因组中每个位置的等位基因深度(得到基因组中的322613个位置)。在F2家族中,等位基因频率理论上将根据五种分离比例分离,即0、0.25、0.5、0.75和1,对应于非参考等位基因的频率(类似于自交四倍体的剂量状态)。鉴于在低深度(Uitdewilligen等,2013)的GBS数据中准确确定非参考等位基因频率的挑战,我们采用了Li等人(2015)和Annicchiarico等人(2015)中描述的方法。F2家族的基因型命名为同型或异型(0/0、0/1、1/1),而没有进一步将其分类为三种可能的杂合态(单型、双型、三型)。这是根据Li等人(2015)的方法实现的;简而言之,在观察到一个等位基因的情况下,需要至少11个读取来将其命名为同型。当观察到两个等位基因时,要将其命名为杂合子,每个等位基因必须至少出现两次,较不常见的等位基因必须以大于0.1的频率出现。如果不满足这些条件,将报告缺失值。这个数据集被过滤,以去除具有超过25%缺失数据的位点,最终的数据集涵盖了基因组中的109438个位置。

SNP注释:所有转录本的结构注释(GFF文件)以及多年生黑麦草的功能注释文件(GO、InterPro、Map-Man)从PLAZA 5.0网站下载(Van Bel等,2022)。首先,对于每个SNP标记,检查GFF文件以确定是否有被注释为基因的区域与SNP染色体位置重叠(严格搜索)。随后,基于基因名称添加功能注释。对于尚未注释的SNP标记,进行额外的邻域搜索,允许检索跨越SNP位点上下游10000个碱基对的区域中存在的注释(邻域搜索)。

特征选择:所有可用的SNP(109438个)被用于建模,或者根据几个规则选择SNP的子集:具有功能注释的65083个标记(将称为“基因SNP”);在过滤掉具有Pearson相关性大于0.75的SNP后获得的58015个不相关标记(“不相关SNP”);随机选择的5000个标记;以及与使用限制酶ApeKI在一组亲本植物上的GBS协议识别出的SNP重叠的5178个SNP(“常见SNP”)。我们实施了一种算法来去除高度相关的SNP,即具有正相关性大于0.75的SNP。在相关SNP组中,仅保留了顺序中的第一个标记。由于我们的基因型数据规模不允许使用标准实现计算相关性矩阵,我们创建了我们自己的方法,在算法S1中以伪代码形式解释。在Arojju等人(2016)的先前研究中,我们对产生F2家族的个体植株进行了基因分型。我们发现F2家族的基因型数据中有4.75%的SNP标记,与重新将序列对准到同一基因组(Nagy等,2022)的个体植株获得的SNP标记重叠。为了比较常见SNP和随机SNP的标记分布,我们使用了高斯核的核密度估计(KDE)方法。KDE以非参数化方式估计随机变量的概率密度函数。我们使用了scipy python包中的scipy.stats.gaussian_kde函数(Scott,2015;Virtanen等,2020)。在KDE图中,每个数据点都为其真实SNP位置周围的一个小区域做出贡献,并使用各种形式来表示,本例中为高斯曲线。由于结果KDE曲线的平滑程度由核宽度(也称为带宽)控制,如果将带宽设置得过小,估计的密度可能会有太多的峰值,从而难以解释分布。相反,如果带宽设置得太大,曲线会过于平滑,很难识别正在分析的数据的真实分布。因此,选择了带宽为0.3,以保持平滑性并强调关键要素。使用不同的随机种子进行了五次这个过程,以获得五个不同的随机SNP数据集。

基因组预测(GP)模型:

首先,GBS数据被编码为-1、0、1(其中-1表示参考等位基因纯合,0表示杂合,1表示变异等位基因纯合)。缺失数据使用A.mat函数(rrBLUP软件包,EM算法,max.missing = 0.5)进行插补。对十个模型进行了评估,如下所示:rrBLUP(mixed.solve函数)、rrBLUP软件包(Endelman,2011)中的GBLUP(kin.blup函数)以及BGLR软件包(Pérez和de los Campos,2014)中的LASSO、BRR、BL、BayesA、BayesB、BayesC和RKHS。除非另有说明,默认选项均被使用。brnn软件包中的BRNN使用了两个神经元和10个周期(Pérez‐Rodríguez等,2013)。BRNN的结构包括三个部分:(I)输入层,其中包括个体的基因组信息(自变量);(II)一个带有两个神经元的隐藏层,将输入层和输出层连接起来;(III)一个只有一个神经元的输出层,输出感兴趣的预测值。在基于核的方法(GBLUP、RKHS、BRNN)中,我们使用rrBLUP中的A.mat函数计算基因关联矩阵(‘GRM’)。为了测试不同特征选择和模型得到的PA(预测准确度)结果是否与在完整数据集上训练的rrBLUP方法显著不同,我们检查了10次迭代的平均PA估计的方差的正态性,估计的分布的正态性,然后进行了未配对t检验(h0,两个总体的均值相等)。

交叉验证(CV):使用K-fold交叉验证(k = 5)来评估模型。整个交叉验证过程被重复进行了10次。平均预测准确度(PA)—即测试数据上观测到的和预测的性状值之间的Pearson相关性—在每次迭代中被记录下来。我们使用伪随机化来划分成独立的交叉验证组,设置了一个种子以保持可重现性。

基因本体(GO)分析:我们为每个性状训练了一个rrBLUP模型(mixed.solve函数)(Endelman,2011);对于每个性状,获得了具有最高绝对标记效应的5000个标记。然后,我们通过在前5000个最具贡献的SNP组中,根据严格的注释搜索,在GO术语组中测试过度表示的GO术语。我们关注生物过程方面的GO术语。使用Fisher的检验独立地测试了每个GO类别。我们使用topGO软件包运行分析,根据用于富集的GO术语的打分算法找出前5个GO术语(Alexa和Rahnenführer,2009)。DiagrammeR软件包用于可视化GO图。春季放牧的分析结果中的终端GO术语(GO:0052545、GO:1901264、GO:0009266、GO:0006970、GO:0005984、GO:1901607、GO:0044272)被用于过滤出具有所需GO注释的基因(n = 733),然后用于选择基因区域的SNP(n = 4564)。这个SNP子集被称为‘GO SNPs’,并与其他方法在预测准确度方面进行比较。

全基因组关联研究(GWAS):

使用GWASpoly软件包(Rosyara等,2016)进行了全基因组关联分析。采留一染色体外的方法(leave‐one‐chromosome‐out)来控制种群结构,使用geno.freq选项将频率低于阈值的标记移除,阈值设置为1–5/N(其中N是样本大小),并选择了加性GWAS模型。

计算环境:

所有分析都是在R统计软件v4.2.0(R Core Team,2022)上执行的。我们在一台运行Ubuntu 22.04的Intel Xeon E5‐2695 v4服务器上进行了实验,配备了512 GB的RAM。

结果

基因型和表型:

我们获取了266个多年生黑麦草F2家族的表型和基因型信息,这些家族在于2018年建立的实验田试验中进行了测试。收集的表型数据涵盖了来自两种管理方式的六个产量特征,即保育管理——第一、第二和第三次刈割青贮的BLUE值;频繁放牧——春季、夏季和秋季放牧的BLUE值。第一次刈割青贮和春季刈割的平均产量最高,分别为25.05± 2.26和21.35 ± 2.48(每块地的鲜重千克 ± 标准偏差)。在每种管理方式下,随后的刈割产量平均比第一刈割少了35%到40%。所有特征的产量分布可以在图S1中找到,而所有特征的相关矩阵可以在图2中找到。
产量性状的广义遗传力在0.14(第一次刈割青贮)和0.68(秋季放牧)之间变化。第二次刈割青贮和第三次刈割青贮的广义遗传力估计值高于第一次刈割青贮(分别为0.47和0.66)。春季放牧的估计值为0.62,高于夏季放牧的估计值(0.50)。每个种群的基因型信息以伪等位基因的形式获取,包括109438个SNP。使用主成分分析获得的显示种群结构的图表在图S2中展示。
我们丰富了SNP数据的功能注释。在仅使用SNP的确切位置信息进行第一轮注释后,有60%的标记物被注释(图3a)。然后,我们进行了第二轮注释,对未注释的SNP进行处理,并从最近的基因中获取信息(SNP的上游或下游10,000个碱基对内)。在邻域搜索后,只有9%的数据未被分配(图3b)。
作为特征选择策略之一,我们筛选掉了高度相关的标记物(相关性大于0.75)。我们获得了一个减少后的数据集,包含58015个SNP(“不相关的SNP”),大致是原始数据集的一半大小。
利用从之前的实验中获得的信息,我们选择了5178个SNP特定标记作为另一种特征选择策略(“常见SNPs”)。为了与“常见SNPs”方法进行比较,我们随机选择了5000个SNP标记作为第三种选择策略(“随机SNPs”)。来自常见和随机SNPs子集的SNP分布可视化如图S3所示。
与常见SNPs相比,随机选择的SNPs在染色体上分布更均匀。核密度估计(KDE)分析表明,这两个子集存在差异,其中在第一、第二、第五和第七条染色体上存在最大差异。
作为第四种策略,我们选择仅使用已注释的基因型SNP标记(“基因型SNPs”),其注释被找到在SNP标记的特定位置上(严格搜索)。这导致了一个包含65083个SNP的基因型数据框。

基因组预测(GP):

我们发现在六个产量性状的平均预测准确率方面,大多数基于标记和核的模型表现相似(表格S2)。最大的例外是LASSO和BRNN,平均而言,它们导致了准确率的降低。在使用rrBLUP模型时,春季放牧获得了最高的平均准确率(0.78),其次是夏季放牧(0.62)。对于第二次刈割青贮,我们获得了0.56的准确率值。第一次刈割青贮和秋季放牧的结果适中,分别具有0.36和0.33的准确率值。第三次刈割青贮的准确率(0.17)最低。模型选择策略对基于标记的模型的准确率影响最大(图4a、b),对于所有性状和特征选择方法,LASSO模型的准确率显著下降。BRNN是第二低的表现方法,但其对准确率的影响取决于性状和特征选择。
就特征选择而言,使用不相关的SNPs并没有影响准确率。仅使用由5178个常见SNPs组成的小数据集在预测春季放牧时表现一直较差,而5000个随机选择的SNPs(用来与常见SNPs进行比较),与基准rrBLUP方法相比,其准确率结果是类似的。所有SNPs和基因型SNPs在使用BLR方法预测第三次刈割青贮时,得到的准确率结果较低。特征选择的影响也在基于核的方法中观察到(图4c、d)。在六个性状中的两个性状(春季和夏季放牧)中,除了BRNNs模型外,在所有模型中,常见SNPs在持续表现较差的情况下比全数据集上训练的GBLUP模型表现更差。在BRNNs模型的情况下,观察到的准确率下降得更为普遍。

基因本体(GO)富集分析:

对于rrBLUP模型中5000个最重要的SNPs进行的GO富集分析显示,不同的GO类别在标记的正负子集中显著过表达(表格1)。应激响应和花发育在正负两个子集中都有发现,并且出现在不同的性状中。原始的GO图表在图S4-S9中显示。基于在GO富集分析中显著性进行过滤的SNP子集的基因组预测结果,用于春季放牧的‘GO SNPs’,可以在表格S2中找到。与使用全数据集的SNPs的rrBLUP模型相比,‘GO-SNPs’子集在所有性状的中位预测结果方面表现更差。在预测春季放牧方面,最低的观察差异(-3.85%)被发现。对于频繁放牧管理下的其他性状以及第二次刈割青贮,准确率的降低在6%–8%的范围内。准确率最大的降低发生在总青贮产量(42%)和第三次刈割青贮(24%)中。‘GO-SNPs’在黑麦草染色体上的分布显示在图S14中。

全基因组关联研究(GWAS):

在进行基因型与表型之间的关联性分析后,识别出了几个SNP。超过计算阈值的显著SNP,仅在春季放牧中找到(图5)。这三个SNP标记都位于染色体7上,位于被注释为编码木聚糖甘露糖转移酶的外显子序列的区域,该酶参与细胞壁的组织和半纤维素木聚糖的生物合成(表2)图S10和S11显示了QQ图,图S12和S13显示了所有性状的曼哈顿图。
找到了七个得分很高的SNP标记(得分超过5.5),但低于显著性阈值(表格S3)。其中五个是直接注释的,另外两个是使用邻域搜索进行注释的。对于春季放牧,其中一个标记具有与显著的SNP相同的基因外显子名称注释(表2),它是染色体7上可见的SNP峰的一部分。其中两个高得分的SNP是用来源于肽酶(V3.Lp chr5 0G14182,V3.Lp chr3 0G25674)的信息进行注释的,另一个来自一个跨膜蛋白质,其中包含一个激酶结构域和一个与植物细胞壁的果胶分数接触的细胞外结构域(V3.Lp chr3 0G4594)。

讨论

季节性饲草产量的基因组预测:

先前关于多年生黑麦草的研究表明,可以基于家族群的基因型数据开发基因组选择模型(Ashraf等,2016;Fè等,2015,2016)。在关于饲草产量的研究中,Guo等(2018)的工作显示,可以在多年生四倍体黑麦草中预测干物质(DM)产量,准确度为0.34(使用家族群的基因型数据)。需要注意的是,作者使用了在2年内多次刈割的DM值,而未根据季节性将数据分割。Pembleton等(2018)的研究表明,可以利用合成种群的历史试验数据建立季节性饲草产量的基因组预测(GP)模型。作者还使用了来自群体的基因型数据(在他们的情况下是合成种群)来开发预测方程。有趣的是,所有刈割的平均准确度为0.31,从春末的0.205到春初的0.589不等,准确度通常遵循不同生物量产量性状的遗传率。这些准确度与Lin等(2016)模拟中使用的数字一致,该模拟展示了遗传增益可能增加两到三倍。在我们的研究中,我们使用新鲜物质产量作为间接选择方法,以增加多年生黑麦草草坪的DM产量(Conaghan等,2008)。与Lin等(2016)的结果类似,我们观察到最高的准确度是在较早的刈割时获得的(比如,在我们的情况下是春季放牧)。对于稍后的放牧刈割,如夏季和秋季放牧(分别为0.62,0.33),预测准确度明显较低。预测青贮刈割更具挑战性,第二刈割青贮的预测准确度最高(PA = 0.56),其次是第一刈割青贮(0.36),然后是总产量青贮(0.19)和第三刈割青贮(0.17)。有趣的是,第二刈割青贮获得了最高的预测准确度,其与总产量青贮的相关性最低,后者的预测准确度较低。然而,我们观察到第二刈割青贮的草产量与夏季放牧产量之间存在正相关关系。这种关系可能部分原因是第二刈割青贮的预测准确度在青贮刈割中最高。同样,我们观察到秋季放牧与第三刈割青贮之间存在正相关,而这两个性状的预测准确度较低。不同刈割之间的遗传控制差异主要是由于黑麦草的生长阶段变化,从主要是生殖生长(第一次刈割青贮),到兼有营养生长和生殖生长(第二次刈割青贮),再到主要是营养生长(第三次刈割青贮)(Lazenby和Jones,1988;Wilkins和Humphreys,2003)。
本研究中春季放牧的高预测准确度可能是几个因素的结果。首先,我们定义了春季放牧的新鲜生物量产量,包括每年的前两次刈割,分别在两年的5月10日前完成。虽然春季放牧的产量是在植物达到各自的抽穗日之前测量的,而抽穗是一个具有很高遗传性的特征,可能是积极影响我们模型预测能力的因素之一。随着白昼时间和温度的增加,植物进入生殖生长阶段,这是在经过主要诱导期后开始的过程,该过程可能会影响饲草产量(本文后面将讨论)。以前的研究表明,可以使用基因组数据高精度地预测抽穗日期(Byrne等,2017;Fè等,2015),我们对春季产量的部分预测能力可能与预测进入生殖生长阶段有关。其次,我们的训练样本仅限于一个田间试验,在一个地点进行,这可能是一个潜在的限制。

使用不同方法的预测准确度:

在获得了季节性饲草产量基线的预测准确度之后,我们选择对多个预测模型和特征选择方法进行基准测试。我们选择了在10次迭代中重复的K-fold交叉验证来拟合我们的数据。预测准确度(PA)估计量的可变性可能会受到家族之间更密切相关关系(共同祖先的影响)的影响。我们在之前的研究中观察到了这种行为(Konkolewska等,2021),该研究涉及了独立分散植株中黑麦草可消化性的基因组预测,该研究用于生成F2家族。然而,在这项研究中,我们发现训练数据集的种群结构相对均匀,没有分离簇的证据(图S2)。
我们的基准测试结果显示,除了LASSO和BRNNs之外,所有选择的模型都适用于黑麦草饲草产量的预测,并且与rrBLUP/GBLUP方法相当。我们承认,LASSO模型的训练可能可以更加广泛,因为我们已经限制了搜索参数空间以减少计算时间。通过更广泛的超参数优化,我们可能会期望LASSO模型稍微改进。在培训的易用性方面,在BGLR软件包中执行的贝叶斯方法,相对来说相当简单。我们没有穷尽软件包提供的全部功能来进行模型的超调优,因为这将超出方法基准测试的范围,还会进一步增加使用马尔科夫链蒙特卡洛取样(Markov Chain Monte Carlo sampling)的拟合时间。

神经网络(NNs):

在所有比较的方法中,有一种是基于人工神经网络(ANN)。相对于参数模型,神经网络最大的潜在优势可能在于其捕捉非线性(或非加性效应)的能力,比如表现型的相互作用(Desta和Ortiz,2014)。BRNNs是神经网络的一种例子,在Gianola等人(2011)实验中,成功地用于预测小麦的产量。本研究中使用的BRNN架构采用了两层神经网络,使用了brnn R软件包进行实现(Rodriguez和Gianola,2022)。有趣的是,BRNN模型既可以用于基于标记的模型,也可以用于基于核的模型。然而,在我们的案例中,由于具有超过100000个SNP的全库标记,我们无法在基于标记的方法中实现此模型。由于BRNN方法在预测准确度方面与GBLUP相当,我们认为一般情况下在基因组预测工具中有使用这种方法的空间。然而,我们研究中的季节性饲草产量性状似乎具有很好的线性依赖关系,这可能不是展示神经网络能力的最佳用例场景。

特征选择:

在特征选择策略方面,预测性能的最大差异出现在最小的子集中,即常见的SNPs和随机选择的SNPs(5000个标记)。有关这两个标记子集的进一步讨论可以在支持信息中找到:常见的SNPs。使用基因SNPs允许我们仅使用带有基因注释的标记(外显子、内含子、5'非翻译区等)来构建模型。这是一种类似于Cappetta等人(2021)在茄科作物番茄(Solanum lycopersicum)的基因组预测中使用的策略,它可以在保持与完整SNP集相当的准确性的同时,减小标记数据集的大小。在我们的情况下,缩减的基因SNP集的结果与在完整数据上的预测相当,但大小的减小并不大,我们只能将大小减小40%,缩减至65083个标记。另一种使用的特征选择策略是去除相关的SNPs(相关性 > 0.75)。由于现有的寻找高度相关变量的方法无法适应我们数据集的大小,我们不得不开发自己的方法。结果产生了一个大小减小了约一半的数据集(无相关的SNPs)。基因组预测结果显示,使用这个标记子集,我们能够保持完整数据集的准确性。有趣的是,对于某些性状(例如,rrBLUP模型中的第二次刈割青贮、第三次刈割青贮),预测能力似乎有轻微但不显著的增加。这无疑是一个小的改进,在结果的标准差范围内,但相当一致。考虑到平均预测准确度估计的变异性,可能随着迭代次数的增加,这种改进会变得显著。使用较小的标记子集的优势不仅在于计算时间,还在于去除高度相关变量以及数据集的减小可能会限制模型过度拟合(Salam等,2021)。总之,我们的结果显示,在季节性饲草产量性状的基因组预测中,rrBLUP/GBLUP、BRR、BayesA、BayesB、BayesC、BL和RKHS模型可以互换使用。就易用性和训练时间而言,GBLUP模型仍然是最佳的通用方法。

全基因组关联研究(GWAS)结果:

我们只在春季放牧这一性状上通过GWAS找到了显著的SNPs。这也是我们在基因组预测中获得最高预测准确度的性状。
我们的结果显示,位于染色体7上的几个SNPs与春季放牧性状相关(这些SNPs在同一测序读取上链接)。所有的SNPs都定位在一个被注释为编码木聚糖葡萄糖甲基转移酶的区域,这是一种负责木聚糖葡萄糖甲基转移的酶,其作用是对植物细胞壁的木聚糖进行葡萄糖甲基化,木聚糖是植物细胞壁的主要成分。结构上,木聚糖是复杂的半纤维素多糖,通过高尔基器在细胞壁之前生物合成后被导出。它们参与细胞生长和膨胀、能量代谢和信号传导(Urbanowicz等,2017)。通过SnpEff(Cingolani等,2012)对SNPs的注释显示,这些SNPs被注释为具有适度影响的错义变异体。在饲草产量方面,第一个可能的假设是细胞生长和膨胀可能是影响显著基因相关SNPs效应的主要因素。例如,拟南芥(Arabidopsis thaliana)中的AtFUT1葡萄糖甲基转移酶的点突变被证明将葡萄糖甲基化的木聚糖量减少到野生型数量的2%。然而,这个mur2突变体仍然表现出正常的生长和细胞壁强度(Vanzin等,2002)。这与观察结果一致,尽管葡萄糖甲基化的木聚糖与非葡萄糖甲基化的木聚糖相比,对纤维素的亲和力更高,但葡萄糖甲基化不仅限于纤维素-木聚糖网络的形成(Levy等,1997)。只有在缺乏L-岩藻糖的新生合成的mur1突变体中,植物表现出矮小的生长习性和降低的细胞壁强度(Vanzin等,2002)。或者,基因的信号传导作用对饲草产量可能也很重要。木聚糖衍生的寡糖,即木聚糖寡糖,已被发现能够抑制豌豆子叶中的生长素刺激的伸长(Van Bel等,2022)。在拟南芥和烟草(Nicotiana tabacum)中外部添加寡糖,会导致刺激的生长和在牺牲G1期的情况下缩短细胞周期。人们认为,木聚糖寡糖通过改变细胞壁的机械特性来促进茎节的伸长生长,而影响细胞分裂的机制仍然不明确(González-Pérez等,2012)。木聚糖寡糖的促进作用取决于是否存在L-岩藻糖末端,这突显了木聚糖葡萄糖甲基转移酶在整个过程中的重要性(Augur等,1993)。

基因本体(GO)对基因组预测(GP)的见解:

通常GP模型称为“黑匣子”方法(Eggen,2012),其解释性有限。在这里,我们提出了使用GO富集分析,这是常规的差异表达分析后常常执行的分析方法(例如,Clark等,2014;Irizarry等,2009),以获得对GP模型有价值的洞察(图6)。在进行GO富集分析后,我们发现许多显著的GO类别与压力(生物性、非生物性、种间相互作用)或发育阶段相关。总的来说,对压力的反应在春季放牧和秋季放牧(渗透胁迫)方面呈现负面影响,而在第一次刈割青贮(对镉离子的反应)和第二次刈割青贮(对真菌的反应)方面呈现正面影响。GO类别中的压力类型取决于样地管理,因为我们在模拟放牧管理中看到春季和秋季出现渗透胁迫,很可能是由于气温升高引起的(对干旱的反应)。有趣的是,我们发现第一次刈割青贮的GP模型中的花的发育呈负面影响,而预测第三次刈割青贮的模型中呈正面影响。关于前者,研究发现更多的干物质归因于已存在的生殖分蘖的抽穗前较长的生长期(Ullmann等,2017)。因此,富集的花的发育GO术语可能是在展示较短的生殖生长直至抽穗的群体中预期的饲草产量减少的迹象。另一方面,对于第三次刈割青贮,花的发育的存在可能与抽穗后和秋季的次生生长有关,这可能导致更高的饲草产量(Kemesyte等,2017)。
在为春季放牧预测模型负面贡献的标记子集中,发现显著富集的GO类别是胼胝质的定位,这也可能是发育阶段变化的信号。胼胝质的沉积和合成可能与花粉发育有关,因为胼胝质是特殊细胞壁的组成部分,例如分隔分裂细胞和生长的花粉管壁的细胞板(Schneider等,2016)。Li等人(2020)的研究显示,胼胝质沉积过程的破坏可能导致棉花中的花粉异常甚至是雄性不育。胼胝质还参与在非生物胁迫和生物胁迫响应期间维持重要功能(Schneider等,2016)。在未来的研究中,我们希望评估抽穗对于春季放牧预测能力的影响。抽穗是一个高度遗传的性状(Arojju等,2016)。因此,有关抽穗的信息可以用来预测植物的潜在发育阶段(营养生长期与生殖生长期),这可能是饲草产量的一个强有力的指标(Ullmann等,2017)。
我们进行GP后GO的分析方法并不局限于rrBLUP模型;它也可以在其他模型中发现重要的SNP标记。此外,GO富集分析还可以识别用于设计定向基因分型检测方法(Ye等,2020)的标记,或作为特征选择策略,如图6c所示。在这项研究中,我们比较了三个小的SNP子集的预测准确度(PA):5000个随机选择的SNPs,以及两个非随机子集——5178个常见的SNPs和4564个GO SNPs。GO SNP子集包含在春季放牧预测中被发现显著的GO注释标记。总的来说,我们发现使用这个子集会降低模型的平均预测准确度。这可能是由于与随机SNP子集相比,GO SNP子集的大小较小。然而,SNPs在染色体上的非随机分布也可能在一定程度上对此负有责任,因为这些SNPs总共属于733个基因。在这么狭窄的SNP子集中,可以看到每个性状的预测准确度如何受到影响是很有趣的。我们发现,对于最初用于筛选SNPs的春季放牧产量来说,预测准确度的降低最小。在频繁放牧下,其他性状的降低幅度较大,其次是在保护管理下性状的降低最大。有一个例外,即第二次刈割青贮,对于这一性状,我们观察到的降低与在频繁放牧管理下的性状降低相当(不包括春季放牧)。这可能可以通过这两个性状之间的负相关关系来解释,因为我们在生物过程的重要GO术语方面没有观察到任何重叠。虽然超出了当前研究的范围,但GO富集分析也可以用于识别GO加权GP模型的开发中的特征,就像以前在动物育种中使用的一样(Fang等,2017),这值得进一步探索。

实际应用:

假设预测能力在世代之间不会恶化,与基因型反复选择相比,基因组选择(GS)有潜力将遗传增益的速度至少翻倍。例如,即使在第一次刈割青贮的情况下,基于0.19的预测准确度和0.14的广义遗传力,GS相对于基因型反复选择的选择效率为2.5。这假定GS和基因型反复选择的选择强度相同,并在完成一次基因型反复选择周期所需的时间内完成五个GS周期。然而,有证据表明,随着选择候选饲草与GS模型训练所用的种群越来越远,预测能力会降低(Crossa等,2014;Windhausen等,2012)。一种更为保守的GS方案涉及使用GS进行家族内选择,以确定产生新的候选育种材料的最佳亲本,并开始新的选择周期。模拟明确展示了这种方法的效力(Esfandyari等,2020),特别强调了能够为诸如饲草产量等关键性状进行家族内选择的好处。在一个典型的育种计划中,每年启动一个新的选择周期,训练种群每年都在增长,从而提高了预测准确度并保持了训练材料与选择候选人之间的联系(每个周期的预测模型在应用前直接更新)。这种每个周期构建训练种群的方法已被提出作为将GS整合到商业计划中的可行策略(Esfandyari等,2020;Hayes等,2013;Lin等,2016)。在模拟中,GS在每个周期内的遗传增益更高,由于预测准确度的提高,累积遗传增益在周期内更高,有潜力将遗传增益翻倍或翻三倍(Esfandyari等,2020)。鉴于干物质产量的年度遗传增益在保护管理下为0.52%,在模拟放牧下为0.35%(McDonagh等,2016),通过基因组辅助育种方法有很大的潜力提高草地生产力。
虽然饲草产量是选择的主要性状,但预计会使用多性状基因组选择(multitrait GS)来进行指标选择,特别是在性状权重可用的情况下。例如,在爱尔兰,国家名录中还有一个利润指数(PPI),根据每个性状的经济权重来为品种分配值,从而确定了其盈利能力。在这个放牧系统中,季节性饲草产量和保护性刈割的价值不同,其中春季的价值大于秋季,大于夏季,等于第一次刈割青贮,大于第二次刈割青贮。我们对季节性饲草产量的预测能力是令人鼓舞的,考虑到评估单株产量的难度,它为进行家族内选择提供了强大的方法。当与在VCU试验中评估的其他性状的基因组预测方程相结合时,它代表了在多年生黑麦草育种中进行家族内和家族间选择的强大工具。然而,这仍需要进行实证来验证基因组学在家族内和家族间选择中的附加价值,以便进行成本效益分析。这将涉及使用Smith–Hazel选择指数进行多性状基因组选择,为最佳家系内的选择候选人生成广义育种值(GEBVs),并通过积极、随机和消极选择生成一系列新的品种。
对选择候选人进行基因分型的成本将显著影响将基因组选择应用于饲料育种的成本效益。在考虑设计SNP芯片或类似的有较少SNP数量的定向基因分型检测方法时,我们发现将数据减少到不相关SNP(大致为原始数据集大小的一半)时,可以保持预测准确度。进一步减小规模可能会降低预测准确度;在一定程度上,通过使用基于核的方法(例如GBLUP、RKHS)可以防止这种情况。如果我们要开发这种成本效益的基因分型检测方法(育种师友好工具),以使基因组选择的常规实施变得实际可行,在保持预测能力的情况下减少SNP集合是必要的。

结论

在本研究中,整合了不同的策略来促进预测模型和特征选择策略的最佳组合识别。此外,利用了基因本体富集分析,还提出了一个补充流程,以提高训练后的基因组预测模型的可解释性。我们发现各种建模方法之间的差异很小,减少SNP集合后仍然保留了预测准确度,尽管在整合不同的GBS实验的SNP集合时仍需谨慎。已经优化过的用于季节性饲草产量的基因组预测模型,其预测准确度足以影响多年生黑麦草关键性状的育种遗传增益。仍然需要进行实证实验来验证这些模型是否适用于家族间和家族内基因组选择,以及将饲草产量的预测模型与其他关键性状的预测模型结合起来,以实现多性状基因组选择。

图表

图1:多年生黑麦草(Lolium perenne L.)鲜重生物量产量的基因组预测方法概述。

图2季节性和总产量性状之间的相关性,分为保护性管理(“青贮”)和频繁放牧(“放牧”)。

图3:F2单核苷酸多态性(SNP)标记的功能注释(至少1000次计数)发生率直方图。(a)严格注释,特别是在每个SNP的染色体位置上能找到的。(b)在未分配的每个SNP的紧邻区域(上下游10000个碱基对的区域)进行附加注释搜索后的发生率。请注意,由于重叠的注释区域,每个SNP可能有多个注释,尤其是在邻域搜索的情况下,可以在SNP标记附近找到多个基因。

图4:特征选择对两个季节性饲料产量性状的平均预测准确度的影响示例。表S2为获取所有性状的结果。(a,c)春季放牧;(b,d)第二次刈割青贮。(a,b)基于标记的模型(BL,贝叶斯Lasso;BLR,贝叶斯线性回归;rrBLUP,岭回归最佳线性无偏预测;BRR,贝叶斯岭回归;LASSO,最小绝对收缩和选择算子),(c,d)基于标记的rrBLUP—用于比较;然后:基于核的模型(BRNN,贝叶斯正则化神经网络;GBLUP,基因组最佳线性无偏预测;RKHS,再生核希尔伯特空间)。特征选择:All SNPs—所有可用的标记(109438个);random SNPs—随机选择的SNP标记(5000个);common SNPs—在两个分开的基因型测序协议中发现的共同SNP,用于基因分型F2家系和生成F2家系的间隔植物的基因分型(5178个);genic SNPs—带有基因注释的SNP(65083个);uncorrelated SNPs(58015个)。平均预测准确度是在k = 5-fold交叉验证方案中获得的平均皮尔逊相关系数结果。该过程已在10个迭代中重复进行。

图5:通过全基因组关联研究(加性模型)分析季节性饲草产量性状(春季放牧)获得的曼哈顿图。显著性阈值计算为6.12。

图6:(a)基因组选择的原则,其中训练种群进行了基因分型和表型鉴定,以建立模型,预测基因分型的候选种群中感兴趣的特征。(b)提出使用基因本体富集分析来增加基因组预测模型的可解释性。(c)提出使用基因本体富集分析作为特征选择策略。

表1:对于六个产量性状的RRBLUP模型,贡献最大的5000个SNPs(正负相关),获得的最显著的五个GO富集术语(生物过程)。


表2:春季放牧的GWAS中发现的显著SNP标记(附带注释)。


原文链接:onlinelibrary.wiley.com
DOI:doi.org/10.1002/glr2.12

引用格式:Konkolewska, A., Phang, S., Conaghan, P., Milbourne, D., Lawlor, A., & Byrne, S. (2023). Genomic prediction of seasonal forage yield in perennial ryegrass. Grassland Research, 1–15.

排版:徐萌蔚
统筹:王新宇
声明:该编译文章仅代表编译者对原文的理解,如需参考和引用相关内容,请查阅原文。编译文章由GR团队制作仅供学术交流,转载须注明转载自Grassland Research微信公众号及编译作者信息。

期刊介绍

Grassland Research是我国草业科学领域第一本国际学术期刊,季刊,由中国草学会和兰州大学共同主办。该刊受中国科技期刊卓越计划高起点新刊项目支持,由国际出版集团John Wiley & Sons Australia, Ltd.提供出版及宣传服务,于2022年正式出版。
Grassland Research论文刊发范围广,综合性强。从分子到全球变化层面,全维度聚焦草业科学及其在人类可持续发展中的作用。期刊将刊登天然草原,栽培草地、草坪和生物能源作物,以及草地生态系统三大板块的基础性和应用性研究成果、综述、论点等类型的文章。优先考虑发表青年学者优秀研究成果,期待成为青年科学家喜爱的国际学术交流主阵地。
在创刊前三年,Grassland Research将免收版面费,以OA形式通过全球化出版平台Wiley Online Library出版。




https://blog.sciencenet.cn/blog-3568995-1414773.html

上一篇:Grassland Research | 埃塞俄比亚燕麦产量稳定性分析—基于对其基因型的参数统计和非参数统计
下一篇:Grassland Research | 功能群丰富度增加了集约化管理草地的多功能性
收藏 IP: 36.142.180.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-23 10:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部