||
自高通量基因测序技术革命以来,大量物种的基因组被测序。这些数据为利用比较基因组学方法挖掘参与特定生物过程的基因提供了宝贵资源。系统发育谱系分析(phylogenetic profiling,PP)通过比较不同基因间在大量物种中的协同变化(存在,缺失或突变程度),推断特定生物过程中存在功能联系的基因。因此,该方法可以将已知功能基因作为参照,利用共进化信息预测未知基因的功能。近年来已测序植物物种急剧增加,为PP方法在植物领域的发展提供了契机。
近日,中国农科院作科所/南繁院李慧慧团队在aBIOTECH上发表了题为“Mining salt stress-related genes in Spartina alterniflora via analyzing coevolution signal across 365 plant species using phylogenetic profiling”的研究论文。在该研究中,作者利用365个植物物种基因组构建了进化信息矩阵,将机器学习方法与PP结合预测植物盐胁迫相关基因。
图1 基于365个植物物种构建目标和参考物种的进化信息矩阵并分析盐胁迫相关基因的进化特征
作者将互花米草(Spartina alterniflora)作为待研究的目标物种,拟南芥和水稻作为参考物种,研发盐胁迫相关基因挖掘方法。首先将三个物种中全部基因的氨基酸序列分别比对到365个物种的蛋白组,并构建标准化系统发育谱系矩阵。随后,作者通过文献调研总结分析了拟南芥和水稻基因组中已报道的盐胁迫相关基因。
通过构建机器学习模型,作者确定了参考物种中盐胁迫相关基因的进化信息,可跨物种表征目标物种中的同源基因。同时,机器学习模型的特征重要性分析表明不同进化分支中的信息对模型预测功效存在差异。因此,作者通过可在不同进化层面进行系统发育谱系分析的CladePP方法,预测互花米草基因组中潜在盐胁迫相关基因。结果表明,与已知盐胁迫相关基因高度协同进化的基因集中富集在离子转运、毒性物质响应、解毒代谢等生物过程。通过本研究策略,作者鉴定到五个编码离子转运蛋白的基因,且均被实验验证具备钠离子吸收能力。综上所述,这项工作证实了利用进化信息挖掘盐胁迫相关基因的可行性,展示了将PP与机器学习算法结合在植物功能基因组学研究中的巨大潜力。
图2 盐胁迫相关基因挖掘策略与预测结果
该研究得到国家重点研发计划、中国农业科学院“南繁专项”、国家自然基金、阿里巴巴基金会和崖州湾科技城先进计算中心超算平台的资助和支持。中国农科院作科所李慧慧研究员为本文通讯作者,助理研究员高尚、博士后陈守坤为共同第一作者。烟台大学生命科学学院陈世华教授和澳大利亚天主教大学吴金冉博士后研究员参与了本研究工作。
作者简介
李慧慧,中国农业科学院作物科学研究所研究员,博士生导师。中国农业科学院“农科英才” 领军人才,获国家基金委优秀青年科学基金项目资助。主要从事基于大数据、人工智能和多组学数据的智能设计育种方法研究,围绕数量性状遗传解析方法及育种应用,开发了系列方法和软件。以第一/通讯作者在Molecular Plant,Nature Plants,Molecular Ecology,Trends in Plant Science等期刊发表文章40篇,其中单篇他引超过500次的论文3篇,单篇他引超过100次的论文10篇。
相关阅读:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 15:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社