||
北京时间2021年4月8日晚23时,美国密歇根大学Seunggeun Lee团队在The American Journal of Human Genetics杂志上发表论文——“Efficient mixed model approach for large-scale genome-wide association studies of ordinal categorical phenotypes”,提出了一个针对于多分类表型数据的全基因组关联分析新算法——POLMM。
密歇根大学Seunggeun Lee教授与毕文健博士为文章共同通讯作者,毕文健博士同时也是文章的第一作者。
近年来,随着健康医疗信息化、大数据化和智能化的发展,世界范围内涌现了很多大型生物样本资源库 (Biobank),样本量达到了数以十万甚至数以百万计。利用这些大数据信息进行建模、分析,有助于为生物医学的基础研究和临床研究提供重要的研究线索,对精准医学、复杂疾病智能诊疗等领域也具有重要的研究意义。
基于大型生物样本库的全基因组关联分析是目前重要的分析手段之一,但存在一些本质困难。首先,由于其样本量大,遗传位点多,数据分析需要大量运算时间,因此亟需针对大数据进行数学方法的创新,进而提出更快速的分析方法。其次,随着样本量的增加,样本之间的遗传相关性也逐渐成为无法忽视的重要因素。最后,很多表型的分布是高度不均衡的,比如对于某些疾病,几十万的研究个体中可能只有几百个甚至几十个患病个体,这使得传统的正态分布近似不再准确。
针对这些新的困难与挑战,密歇根大学的Seunggeun Lee团队针对病例对照研究 (Case-control study) 下的单位点分析(1,2),多位点分析(3,4),基因-环境交互作用分析(5),以及生存数据分析(6)等问题提出了一系列快速有效的新算法并应用于UK Biobank数据中。相关软件包和分析结果都已经在线公开(https://www.leelabsg.org/resources)。
多分类表型数据是一种普遍存在的数据类型,常见于调查问卷,在大型生物样本库中用来描述生活方式、精神状态或是对特定事物的喜好程度。比如UK Biobank中有150种对于食物或其他健康相关的多分类表型,受访者根据喜好从1到9进行打分,1为非常不喜欢,9为非常喜欢。多分类表型数据的分布有时高度不平衡,比如对于抽烟行为,90%的受访者非常不喜欢,仅有不到1%的受访者非常喜欢。
目前针对多分类表型数据的全基因组关联分析方法较少,无法处理样本量大、样本之间存在遗传关联性等常见情况。由于其与连续型表型和两分类表型有本质的区别,将其视为连续性表型或将其转化为两分类表型后进行分析会产生假阳性结果或降低统计效力。
该算法利用比例优势混合模型来刻画混杂因子、遗传位点和遗传关联性对于多分类表型的影响,将多分类表型转化为多个彼此关联的二分类表型,利用惩罚拟似然函数、平均信息的受限最大似然等方法进行参数辨识。该算法首次将混合模型引入针对多分类表型的全基因组关联分析,可以很好地控制样本之间的遗传关联性对于结果的影响,同时也首次将鞍点近似方法引入多分类表型数据分析,从而具备极强的鲁棒性和统计效力。
数值模拟显示,将多表型数据视为连续性变量(BOLT-LMM),会造成大量的假阳性结果;而将其视为两分类表型 (SAIGE),则会显著降低检验的统计效力,无法发现与表型相关的遗传位点。
研究者们将该方法应用于UK Biobank的实际数据,分析了258种多分类表型,共发现了5,885个与表型相关的遗传位点,其中424个(7.2%)为罕见变异位点。
在本研究中,毕文健博士等人提出的算法为大型生物样本库的多分类表型分析提供了更快速、更准确的分析工具,填补了该领域的重要空白。POLMM的R包可以从网站https://github.com/WenjianBI/POLMM 下载。UK-Biobank数据分析结果可从网站https://polmm.leelabsg.org/下载。
相关论文信息:
https://doi.org/10.1016/j.ajhg.2021.03.019
毕文健博士毕业于中国科学院数学与系统科学研究院,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。毕文健博士将于2021年5月加入北京大学基础医学院组建统计遗传学、系统生物学实验室。研究方向涉及全基因组关联分析、生物医学大数据分析、复杂系统的辨识与控制等相关算法设计。
现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。详情请联系wenjian.bi@gmail.com。
参考文献
1.Zhou, W., Nielsen, J.B., Fritsche, L.G., Dey, R., Gabrielsen, M.E., Wolford, B.N., LeFaive, J., VandeHaar, P., Gagliano, S.A., Gifford, A., et al. (2018). Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies. Nature Genetics 50, 1335-1341. 10.1038/s41588-018-0184-y. 2.Dey, R., Schmidt, E.M., Abecasis, G.R., and Lee, S. (2017). A Fast and Accurate Algorithm to Test for Binary Phenotypes and Its Application to PheWAS. The American Journal of Human Genetics 101, 37-49. https://doi.org/10.1016/j.ajhg.2017.05.014. 3.Zhao, Z., Bi, W., Zhou, W., VandeHaar, P., Fritsche, L.G., and Lee, S. (2020). UK Biobank Whole-Exome Sequence Binary Phenome Analysis with Robust Region-Based Rare-Variant Test. The American Journal of Human Genetics 106, 3-12. https://doi.org/10.1016/j.ajhg.2019.11.012. 4.Zhou, W., Zhao, Z., Nielsen, J.B., Fritsche, L.G., LeFaive, J., Gagliano Taliun, S.A., Bi, W., Gabrielsen, M.E., Daly, M.J., Neale, B.M., et al. (2020). Scalable generalized linear mixed model for region-based association tests in large biobanks and cohorts. Nature Genetics. 10.1038/s41588-020-0621-6. 5.Bi, W., Zhao, Z., Dey, R., Fritsche, L.G., Mukherjee, B., and Lee, S. (2019). A Fast and Accurate Method for Genome-wide Scale Phenome-wide G × E Analysis and Its Application to UK Biobank. The American Journal of Human Genetics 105, 1182-1192. https://doi.org/10.1016/j.ajhg.2019.10.008. 6.Bi, W., Fritsche, L.G., Mukherjee, B., Kim, S., and Lee, S. (2020). A Fast and Accurate Method for Genome-Wide Time-to-Event Data Analysis and Its Application to UK Biobank. The American Journal of Human Genetics 107, 222-233. https://doi.org/10.1016/j.ajhg.2020.06.003.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 03:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社