||
北京时间2022年10月27日, 美国哈佛大学林希虹教授团队在Nature Methods杂志上发表了题为“A framework for detecting noncoding rare variant associations of large-scale whole-genome sequencing studies”的研究论文。
研究团队开发了大规模全基因组数据罕见变异关联性分析工具STAARpipeline。STAARpipeline提供了针对海量全基因组测序数据的可扩展、灵活和简化的罕见变异关联分析框架,并实现了分析流程自动化,包括全基因组功能注释、常见变异和罕见变异关联分析、条件分析和分析结果的汇总和可视化。
STAARpipeline进一步提出了多种非编码基因组中罕见变异分析单位选择的新方法,并通过STAAR方法整合了多组学功能注释数据,进一步提升了罕见变异关联分析的功效。
该研究为大规模全基因组数据提供了高效、高性能的分析工具,有助于加快新药物标靶的发现和精准健康的研究。
近年来,随着测序成本的大幅下降, 大规模的全基因组测序研究和生物样本库研究正在快速进展,例如美国国家心肺血液研究所20万人的精准化医学研究计划,美国国家人类基因组研究所的35万的基因组测序计划,以及50万人的英国生物样本库。这些研究已经对上百万个全基因组进行了测序,并发现了近十亿个变异位点,其中罕见变异占比率超过了99%【1】。
近期研究表明罕见变异是复杂性状和疾病遗传力缺失的主要来源【2】。面临测序研究中骤增的海量罕见变异数据,一个关键挑战是缺乏全面、自动化、可扩展和高效的分析软件和工具。另一个挑战是超过98%的遗传变异位于非编码基因组。尽管在评估编码罕见变异对复杂性状的影响方面取得了一定的进展【3,4】,但是非编码罕见变异分析仍存在较大的空白。因此,亟需针对基因组大数据中非编码罕见变异的统计分析方法和软件,以发现人类疾病和表型的遗传构架,找到导致疾病的遗传变异位点,开发新的药物标靶。
针对这一难题,林希虹教授团队开发了大规模全基因组测序数据非编码罕见变异关联分析工具STAARpipeline。STAARpipeline是一体化关联分析流程,自动化进行基因型数据与功能注释集成、关联分析以及结果汇总和可视化(图 1)。
首先,STAARpipeline应用FAVOR数据库和FAVORannotator工具对全基因组数据进行功能注释【5】。
其次,STAARpipeline自动定义罕见变体集进行分析,包括基于功能性分类的以基因为中心的分析(gene-centric analysis)和基于变异位置的非以基因为中心的分析(non-gene-centric analysis)。对于以基因为中心的分析,STAARpipeline 提供基于八种非编码功能类别集的罕见变异分析。对于非以基因为中心的分析,STAARpipeline提供了滑动窗口分析和动态窗口分析。相比于经典的固定长度滑动窗口分析,动态窗口分析通过采用数据自适应长度提升了检验功效。
第三,STAARpipeline通过STAAR方法引入并整合了多组学功能注释数据【6】,进一步提高了检验功效。
最后,STAARpipeline利用广义线性混合模型控制人群结构和家系结构的混杂影响,适用于包括连续型和离散型表型在内多种类型的表型数据。STAARpipeline同时提供针对常见和低频变异的单体分析,并针对编码基因组提供基于五种功能类别集的罕见变异分析。
图1: STAARpipeline一体化关联分析流程。(1)输入数据,包括基因型和表型数据。(2)应用 FAVORannotator 工具对全基因组数据进行功能注释;计算(稀疏)遗传相关性矩阵。(3)非编码基因组罕见变异分析,分析单元包括八个功能类别集、滑动窗口和动态窗口。(4)分析结果汇总和可视化和条件分析。
研究团队将STAARpipeline应用于TOPMed全基因组测序数据中,高效地分析了40,000人的9种表型。值得注意的是,STAARpipeline在以基因为中心的非编码分析中发现了 49个显着性关联,其中35个(71.4%)属于6个新的非编码功能类别集。动态窗口分析在非编码基因组中检测到43个非重叠的显着关联,比滑动窗口分析多19.4%。这些结果表明,STAARpipeline是一个强大、资源高效且稳健的非编码罕见变异关联分析工具,应用于大规模全基因组数据和生物库样本库数据。
林希虹教授和印第安纳大学医学院助理教授李子林为本文的共同通讯作者,李子林助理教授与林希虹教授课题组博士后厉希豪为本文的共同第一作者。该工作得到了美国国家心肺血液研究所精准化医学研究计划和美国国家人类基因组研究所基因组测序计划的大力支持。
相关论文信息:
https://doi.org/10.1038/s41592-022-01640-x
参考文献
1. Taliun, D. et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program. Nature 590, 290-299 (2021). 2. Wainschtein, P. et al. Assessing the contribution of rare variants to complex trait heritability from whole-genome sequence data. Nature Genetics 54, 263-273 (2022). 3. Wang, Q. et al. Rare variant contribution to human disease in 281,104 UK Biobank exomes. Nature 597, 527-532 (2021). 4. Backman, J.D. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628-634 (2021). 5. Zhou, H. et al. FAVOR: Functional Annotation of Variants Online Resource and Annotator for Variation across the Human Genome. bioRxiv (2022). 6. Li, X. et al. Dynamic incorporation of multiple in silico functional annotations empowers rare variant association analysis of large whole-genome sequencing studies at scale. Nature genetics 52, 969-983 (2020).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-18 00:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社