||
遗传相关(Genetic Correlation)是遗传学核心概念,用于衡量表型之间由基因决定的相关性。
人类身上的各种性状、行为与疾病,相互间往往存在着相关性。例如,运动量的多少与体重相关、受教育的程度与收入相关、血脂的高低与心脑血管疾病风险相关。
这些关联可能是由后天的生活环境和社会环境所引起,也可能是由先天获得的基因所决定。
遗传相关以相关系数的形式,量化了这种相关性,0代表不相关,0到1之间代表正相关,而-1到0之间则代表负相关。
然而,遗传相关的现有估计方法存在着局限,或因必须使用大量个体基因组数据而很难高效分析大样本[1,2],或虽使用非个体数据但达不到理想的估计准确度[3-5]。
近日,中山大学生命科学学院沈侠教授团队在Nature Genetics杂志上发表了题为High-definition likelihood inference of genetic correlations across human complex traits的论文。 该研究开发了一种用于估计遗传相关的”高精度似然函数” 新方法(High-Definition Likelihood; HDL),大大提高了我们对遗传相关进行估计的能力。
遗传相关的本质是全基因组DNA变异的联合作用机制。人类的基因组中有大量的变异,正是这些变异让人类的外貌多种多样。
以运动与肥胖为例,在所有的变异中,有一些会对运动与肥胖都有影响。然而,这些共同的影响却有两种类型:一种变异让人们爱运动,同时导致人们容易发胖;而另一种变异让人们在爱运动的同时又不容易发胖。
恰恰是因为第二种变异占了大多数,运动与肥胖便形成了遗传负相关,这也是我们生活中发现运动与肥胖负相关的重要原因之一。
与普通的表型相关性(Phenotypic Correlation)不同,遗传相关由于DNA分子的生物学本质,往往隐含着两个性状之间的因果关系,使得遗传相关对实际生活乃至医疗卫生有着重要指导意义。
在这个例子中,由于遗传负相关的存在,更有理由相信运动与体重之间存在因果关系,也就支持了运动减肥这一看似显而易见的结论。
在这项研究中,作者将新的估计方法HDL与近几年最流行的遗传相关估计方法”连锁不平衡评分回归”(LD Score Regression; LDSC)相比较,发现新方法的估计准确性有质的提高。
HDL与LDSC类似,只需利用现有的全基因组关联分析(Genome-Wide Association Studies, GWAS)概括统计量(Summary Statistics)便可对遗传相关进行估计。
在对相同的数据进行分析时, HDL比LDSC减少了约60%的遗传相关估计值方差,这相当于在估计遗传相关时,将现有大量的GWAS样本量凭空增加了150%。
由于该研究不依赖任何通常意义上的个体数据,所有的结果均通过分析现有的概括统计量得到,这大大简化了计算量,这项研究开发的计算工具(https://github.com/zhenin/HDL)可以在短短几分钟之内分析数百万人的基因组与表型信息,得出对遗传相关的精准估计。
由于估计准确性的提高,这项研究中汇报了大量新发现的人类复杂性状间的遗传相关。
沈侠教授团队表示,他们将把几十万到上百万种不同的遗传相关估计结果以数据库的形式公开。
这里列举一些这项研究已经揭示的重要新结论:研究发现,抑郁、长时间使用手机、过多的性伴侣都会”折寿”;性伴侣的数量也与心脏病和癌症的风险有着显著的遗传正相关;出生时体重较重的孩子会爱吃水果、受到更多的教育;而多吃水果本身可以降低心脏病的风险等等(如图)。
图:HDL与LDSC方法对七个性状间的遗传相关估计
综上,这项成果是以数理逻辑主导的统计遗传学前沿研究,开发并运用遗传相关估计新方法,分析现有的GWAS摘要数据资源。
新方法能有效挖掘数据的潜藏信息,为人类性状的遗传相关性提供了更多有力的证据。
这项研究也从重要的遗传学研究角度提供了极大似然估计(Maximum Likelihood Estimation)优于矩估计(Method of Moments Estimation)的典型案例,使得新方法成为迄今为止最有效的遗传相关估计方法,为未来诸多跨学科相关研究打下了坚实基础。
据悉,在本文的三名作者中,中山大学生命科学学院沈侠教授为该论文的通讯作者,其团队中博士生宁铮为该论文第一作者。
沈侠课题组研究方向为复杂性状相关的统计遗传模型与数据分析, 课题组诚聘相关领域的特聘专职科研人员与博士后。
具有较好的数理统计、生物信息、以及生物组学数据分析背景的意向人士,可与课题组联系。更多课题组信息请见:
http://lifesciences.sysu.edu.cn/teachers/professor/1630
相关论文信息:
https://doi.org/10.1038/s41588-020-0653-y
参考文献: 1. Yang, J. et al. Common SNPs explain a large proportion of the heritability for human height. Nat. Genet. 42, 565–569 (2010). 2. Canela-Xandri, O., Rawlik, K. & Tenesa, A. An an atlas of genetic associations in UK Biobank. Nat. Genet. 50, 1593–1599 (2018). 3. Bulik-Sullivan, B. et al. LD score regression distinguishes confounding from polygenicity in genome-wide association studies. Nat. Genet. 47, 291–295 (2015). 4. Bulik-Sullivan, B. et al. An atlas of genetic correlations across human diseases and traits. Nat. Genet. 47, 1236–1241 (2015). 5. Speed, D. & Balding, D. J. SumHer better estimates the SNP heritability of complex traits from summary statistics. Nat. Genet. 51, 277–284 (2019).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-8 19:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社