||
传学和流行病学中的一个重要问题是发现导致疾病的风险因子。
这些发现可以帮助我们找到更好的办法来降低疾病的风险,比方说,降低低密度脂蛋白(LDL)来降低心血管疾病的发病率。
然而,确定风险因子和疾病之间的因果关系,而不仅仅是相关性,通常非常困难。
一个有名的例子就是花了科学界几十年 的时间才确定吸烟导致肺癌的发生。
近些年出现的一种方法,孟德尔随机化分析(Mendelian Randomization, MR)为解决这个问题提供了一种新的思路。 简单的说,假设我们想研究一个可能的风险因子(M)是不是会影响一种疾病(Y)。 如果我们知道一个和M关联的遗传位点(G),就可以相像把所有人根据G的基因型分成两组,一组人里M的水平比另外一组高。 如果这两组人里面Y的发病率不一样,我们大致可以确定这两组的差别是由于M的差别引起的。
这个办法可以简单的推广到有多个能影响M的遗传位点的情形。
我们可以利用每一个位点对Y的效应,和对M的效应:对两者做回归分析就可以估计M是否对Y有影响,以及影响的大小。随着全基因组关联分析(GWAS)的普及,我们很容易得到很多风险因子的遗传位点,MR成为了越来越常用的重要的分析手段。
然而MR面对的一个重要问题是:MR有很强的假设,就是M的遗传位点只能通过M,而不能通过其它的途径影响Y。
如果这个假设不成立的话,MR的结论就可能无效。
越来越多的研究发现这个假设会经常被违背。
一个简单的例子:假设我们想知道高血压是否会影响糖尿病的风险,我们可以利用高血压相关联的遗传位点做MR。
可是如果两者都被另外一个因素,比如说体重指数 (BMI) 的影响,那么任何影响BMI的遗传位点会同时影响血压和糖尿病,用传统的MR方法就可能会得到假阳性的结果。
所以如何利用MR得到有效的结论就成了国际遗传学和流行病学界的一个热点问题。 美国芝加哥大学贺信团队和知名的统计遗传学家Matthew Stephens合作,为解决这个问题提供了更好的办法。 北京时间2020年5月25日晚23时,这项研究发表在《自然—遗传学》(Nature Genetics)上。
贺信团队提供的方法,称为CAUSE,思路是:如果M确实对Y有因果效应,那么任何改变M的遗传位点都会改变Y,如图1中(b)所示。
反过来说,如果M和Y都是被某种未知的因素U影响的话,那么一般来说,只有一部分M的遗传位点(那些影响U的位点)会影响Y,如图1中(a)所示那些蓝色的点。
CAUSE大体上就是通过估计所有M的遗传位点中,有多少也同时影响Y来确定这两种可能性哪种与数据更吻合。
图1. CAUSE模型描述
贺信团队证实,和现有的MR方法比,CAUSE在模拟实验中极大地降低了假阳性率。
在真实数据的分析上,CAUSE也做出了与现有方法不同的发现。
一个例子是LDL对糖尿病的影响。
现有的方法大都报道了阳性结果,CAUSE认为更可能的解释是LDL和糖尿病风险都是被某种其它的因素所影响。
这个结果可能对我们实际如何降低糖尿病风险有一定指导意义。
在另外一组研究中,CAUSE分析了血液中各种细胞数量和相关指数是否会影响免疫类疾病的风险。
现有的MR方法发现了很多可能的假阳性,比如血液中红细胞相关指数对自身免疫类疾病的影响(生物学上没有可能的直接的途径)。
绝大多数这些假阳性都被CAUSE避免。
图2. 血液细胞数量和相关指数对免疫类疾病的MR分析。PLT: 血小板类,RBC:红细胞,WBC:白细胞。SLE, IBD, RA是自身免疫性疾病。Allergy:过敏类疾病,asthma: 哮喘。
鉴于越来越多的基于MR的研究工作被发表——遍布各个领域,比如癌症,心脏病,精神疾病等——如何提供有效可靠的MR分析就成了当务之急。
贺信团队的这项工作在弥补现有MR方法不足上做出了重要的贡献。
相关论文信息:
DOI:10.1038/s41588-020-0631-4
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 09:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社