|
近日,《表型组学(英文)》(Phenomics) 在线发表由中日友好医院翟振国教授团队、广州实验室蒋太交研究员团队,以及国家儿童医学中心/首都医科大学附属北京儿童医院张鹏研究员团队合作题为“A Self-adapting Polygenic Risk Score Model Improves Risk Prediction of Venous Thromboembolism in Han Chinese Cohorts”的研究论文。
该研究开发了一种适用于中国人群静脉血栓栓塞症(VTE)的自适应多基因风险评分(PRS)模型,其作为独立风险分层指标的预测能力超越传统临床风险评级特征,有效识别中国人群中的VTE高风险亚群,为建立适用于中国人群的精准预防筛查方案提供了理论基础。
扫描二维码 | 下载PDF原文
论文DOI链接:
https://doi.org/10.1007/s43657-024-00192-8
论文引用格式:
Wan, Z., Zhang, Z., Su, M. et al. A Self-Adapting Polygenic Risk Score Model Improves Risk Prediction of Venous Thromboembolism in Han Chinese Cohorts. Phenomics 5, 347–360 (2025). https://doi.org/10.1007/s43657-024-00192-8
研究背景
静脉血栓栓塞症(VTE) 是一种多因素疾病,遗传率约为50%。随着高通量测序技术的进步,全基因组关联研究(GWAS) 迅速发展,已经成功地鉴定了数万个与疾病或性状相关的单核苷酸多态性位点(SNP),为了解复杂性状的遗传结构提供了新的思路。多基因风险评分(PRS) 通过综合多个易感位点信息预测疾病风险,在人群风险预测显示出一定的应用价值。大规模GWAS在高加索或非裔美国人血统的VTE队列中发现了多个风险SNP并构建PRS模型,从而实现VTE风险预测。
人群的遗传因素异质性以及传统PRS模型的泛化能力较弱,已识别的遗传风险集合的交集通常只涉及少数共同SNPs,基于欧美人群GWAS分析提供的风险决定因素构建合适的PRS模型来准确预测中国人群VTE潜在风险仍然是一个挑战。在多个PRS模型中,与欧洲血统的预测相比,东亚人群的准确性降低了约50%,表明不匹配的遗传因素导致模型参数从欧洲到亚洲人群的可转移性较差。最近,研究人员利用潜在的VTE风险SNP在中国人群中建立了一个种族特异性的PRS模型,以预测VTE高风险个体。然而,目前基于中国人群GWAS研究的SNP与高加索人群中报道的SNP几乎没有重叠,且现有PRS分析工具的预测精度和泛化能力有限。
本研究通过纳入其他种族中已知的风险SNP扩大潜在的VTE遗传因素,并从算法原理上优化现有PRS模型,有助于进一步分析VTE遗传因素的人群统计特性,推进中国人群VTE遗传风险评估预测准确性及泛化能力。
研究结果
1. 中国人群VTE遗传风险因素评估
采用因果分析来优先考虑风险SNP的影响。结果显示不同检验算法下前100个相对关联的一致性高达81%。来自中国人群特异性研究的47个风险SNPs在所有量级的前100个SNPs中得到验证;在欧洲和美国人群中报道的6个SNPs通过两种以上的排序算法被证明在中国队列中存在VTE风险,分别为rs6088735 (MMP24-AS1), rs4524 (F5), rs12416320 (HK1), rs1613662 (GP6), rs687289 (ABO)和rs6032 (F5)。
图1 总体工作流
2. 中国人群VTE遗传风险模型构建
研究结果表明,在患者和对照组中,随着风险SNP逐步叠加,预测性能稳定异质性地提升,表明对基于GWAS分析的遗传风险效应逐步累积可以提高VTE遗传风险的预测准确性,并展示了上述策略构建VTE-PRS模型的前景潜力。结合自适应叠加及二元判别分析,导向保证预测精度的最优遗传特征集合,在不同参数集下测试PRS模型的适应度,岭回归算法在44个SNPs时达到最优(在训练队列AUC=0.831),并在验证队列中达到了AUC峰值 (AUC=0.739)。此外,本研究将44-SNP岭回归预测作为遗传风险的指标,增加年龄因素更新模型,结果表明遗传风险对静脉血栓栓塞风险的预测具有显著影响(β=1.034, p 值<2×10-16),在预测模型中具有重要作用。而年龄对总体风险预测没有实质性贡献(β=1.121×10-5, p 值=0.844),遗传因素在VTE风险评估的主导贡献。
图2 44-SNP自适应PRS模型预测效果
3. 44-SNP自适应模型优于传统基于GWAS的PRS模型
为了评估44-SNP风险评估的具体优越性,本研究首先进行了1000次随机抽样实验,从包含318个SNP的初始候选集中选取44个SNP作为随机集合。在所有算法测试中,发现队列的随机特征集的拟合AUC小于0.8,验证队列的预测AUC不大于0.7。从各个算法的对比和整体评价来看,都体现了基于优先级排序的PRS评价结果的优越性。加权优化模型中的其他算法通过44-SNP的岭回归特异性集进行评估和验证。在以ROC曲线和AUC作为模型评价指标的情况下,岭回归在所有PRS算法中具有较好的拟合程度和泛化能力。
图3 参与VTE风险预测的44 SNPs优越性检验
使用10倍交叉验证评估的44-SNP风险预测模型,训练队列和验证队列的风险比分别达到7.6 (95% CI, 5.548~8.244)和3.731 (95% CI, 3.143~4.439),优于其他评估算法。与以往使用的53个SNP、93个SNP、100个SNP、288个SNP、298个SNP等GWAS模型相比(OR=5.36±1.81),在控制SNP数量的情况下,基于44个SNP的模型达到甚至超过了现有模型的OR值。在相同算法下,验证队列中本研究提出44-SNP模型的OR和AUC表现优于基于中国人群队列GWAS分析的288-SNP集合 (OR=2.997, AUC=0.709),证明了自适应学习方法在VTE遗传风险预测中的可行性和对有限遗传特征建模的可实施性。
图4 自适应PRS模型的优越性检验
研究结论
本研究基于自适应模型应用岭回归加权算法构建了一个44-SNP遗传风险预测框架,证明了采用多种证据线和排序方法来优先考虑风险SNP遗传效应对PRS建模的有效性,并为影响静脉血栓栓塞易感性的人群特异性遗传因素提供了有价值的见解。
Abstract
Most genome-wide association studies (GWAS) of Venous Thromboembolism (VTE) have used data from individuals of European descent, however, genetic factors for VTE have not been fully identified in Chinese populations, which causes the limited use of existing polygenic risk scores (PRS) to identify subpopulations at high risk of VTE for prevention. We, therefore, aimed to curate all the potential VTE-related single-nucleotide polymorphisms (SNPs) for the construction of a new improved PRS model based on the self-adapting method, and then evaluate its utility and effectiveness in the stratification of VTE risk in Chinese populations. We comprehensively analyzed the mutation spectrum of VTE-associated SNPs in the Chinese cohort, and ranked their individual risk effects independently using risk ratio, logistic regression coefficient, and penalty regression coefficient as evaluation criteria. By integrating various algorithms and evaluating their performance, we trained the optimal prediction model of VTE risk in the Chinese population with the least SNP features, established an adaptive PRS model with progressive SNP overlay, and tested it on an independent Chinese population cohort. Self-adaptive polygenic risk score model based on all 318 SNPs or on the 44 most strongly associated SNPs performed similarly (areas under receiver-operating characteristic curves (AUCs) of 0.739 and 0.709, respectively) on the testing dataset of the Chinese VTE cohort, and that achieve the overall best level of the AUC from a conventional PRS model based on known genetic risk factors (0.620–0.718). In addition, we observed the self-adaptive PRS model was an independent effective risk stratification indicator beyond other clinical characteristics including age and smoking status. Our data revealed that only 44 SNPs-derived PRS model can be effectively used in discriminating subpopulations at high risk of VTE. To become clinically useful, our model could benefit from a practically feasible VTE screening program for precision prevention in Chinese populations.
作者简介
通讯作者
翟振国,医学博士,主任医师,教授,博士生导师,博士后流动站导师;中日医院呼吸中心副主任、呼吸与危重症医学科(PCCM)副主任、呼吸实验研究部副主任、国家呼吸医学中心研究办公室主任、肺栓塞与肺血管病研究组负责人。中华医学会呼吸病学分会肺栓塞与肺血管病学组副组长;中国医师协会呼吸医师分会肺栓塞与肺血管病工作委员会主任委员等;主持国家重点研发计划精准医学专项建设全国肺栓塞与肺血管病临床研究网络;开展肺栓塞、肺动脉高压临床表型、自然病程与组学研究,承担并推广全国肺栓塞和深静脉血栓形成防治能力建设项目;在ERJ、Chest 、Lancet regional health, American Heart Journal中华医学系列期刊等发表论文100余篇,主持制定《肺血栓栓塞症诊治与预防指南》等多部指南,主编、参编呼吸危重症与肺血管病领域专著10余部;获得国家科技进步二等奖1项、中华医学科技二等奖1项。
蒋太交,广州实验室研究员、第十四届全国人大代表,曾入选中国科学院人才计划,获得国家自然基金委杰出青年基金支持,授予国家百千万人才工程“有突出贡献中青年专家”,获中华医学科技奖一等奖、二等奖等荣誉。目前兼任中国生物物理学会常务理事及生物医学信息分会会长和中国预防医学会生物信息分会副主任委员。长期致力于从事传染病生物信息学与转化医学研究,发表论文150余篇和申请并获得授权专利20余项。
张鹏,国家儿童医学中心/首都医科大学附属北京儿童医院研究员,北京市“海外高层次引进人才”、北京科技新星、青苗人才、北京特聘专家。他于2015年获得中国科学院生物物理研究所生物信息学博士学位,后赴美从事博士后研究工作,2020年任马里兰大学医学院助理教授。2021年全职回国加入国家儿童医学中心/首都医科大学附属北京儿童医院,致力于整合高通量测序、人工智能等技术,开展免疫微环境解析、女性生殖衰老与AI辅助药物研发等研究方向,获得包括国家重点研发计划、国家重大专项在内的多项国家和省部级项目支持。担任中国生物物理学会生物医学分会副秘书长、北京整合医学学会人工智能与转化医学分会副主任委员,以及Phenomics杂志社执行编委等职务。
第一作者
万昭曼,北京协和医学院苏州系统医学研究院博士在读,研究方向聚焦于开展复杂疾病组学分析及临床转化研究,基于大数据处理及深度学习算法挖掘疾病潜在机制及风险预测等。以第一作者身份在Gut, Advanced Science, Clinical and Translational Medicine, Phenomics等杂志发表高水平论文。
张竹,国家呼吸医学中心/中日医院呼吸中心主治医师,北京协和医学院医学博士,入选北京市科技新星。主要从事肺栓塞与肺血管疾病的精准医学研究及临床转化工作。现主持科技部重点研发计划政府间合作项目、2030重大慢病防治专项分课题及国家自然科学基金面上项目等多项国家及省部级科研项目。以第一作者或通讯作者在 European Respiratory Journal、CHEST、The Lancet 系列子刊等发表 SCI 论文 20 余篇;授权国家发明专利 5 项。作为第二完成人获省部级科学技术进步奖二等奖。现任中华医学会呼吸病学分会肺栓塞与肺血管病学组秘书,北京整合医学学会人工智能与转化医学分会常务委员,并担任多项 SCI 期刊青年编委。
苏明明,博士,计算机/生物信息/医学交叉背景,毕业于北京协和医学院基础医学研究所生物医学工程专业。十年以上组学数据处理经验,熟悉机器学习算法并应用于多组学数据的生物标志物发现,发表论文12篇,发明专利五项。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-17 05:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社