||
高维介导分析中的大规模推断
介导分析是解读基因组关联研究(GWAS)中疾病遗传关联背后的生物学机制的关键工具。通过弥合遗传变异与临床结局之间的差距,介导分析揭示了中间通路并阐明因果关系。随着 GWAS 持续揭示大量遗传关联,将这些发现转化为精准医疗和治疗开发的可作洞见变得愈发重要。例如,吸烟会改变 DNA 甲基化和基因表达;同时,DNA 甲基化通常直接调控基因表达。因此,研究 DNA 甲基化对基因表达的介导作用——尤其是在吸烟等环境暴露下——至关重要。然而,这些分析因高维结局和临床混杂因素(如患者年龄)而复杂,这会影响基因表达和 DNA 甲基化异质性。
历史上,引入了基于回归的介导分析定义,通常称为“系数乘积法”,该方法考察暴露介质因子和介质因子-结局系数乘积的显著性。近年来,文献通过“反事实框架”扩展,该框架为各种模型中自然的直接和间接效应提供了因果解释,包括具有非线性和二元或生存结果的模型。
设 X 为暴露,Mi 为介导子,Y 为结果。在系数乘积法下,介导分析检验虚无假设 H0,i: αiβi= 0,其中αi代表 X 对 Mi 的影响,βi代表 Mi 对 Y 的影响。这形成了一个复合原假设,包含三种不同的情况:(i) αi= 0, βi≠ 0;(ii) αi≠ 0,βi= 0;或(iii) αi= 0,βi= 0。假设没有未测量的混杂因素,经典检验如 Max-P 和Sobel检验在(iii)情形下是保守的,因为统计推断通常由案例(i)和(ii)确定的分布推导出来。然而,在全基因组研究中,组学数据稀疏意味着大多数标记的 αi= 0 和 βi= 0 都成立。近期方法如 JS 混合(HDMT)和 DACT试图通过显式建模零的复合性质来解决这个问题。JS 混合比通过使用最大 p 值的混合零分布来提升功率,并调整的程序以估计组分比例。DACT 分别估计无效αi和βi的比例,以结合具体病例的 p 值。然而,最近证明了DACT 在密集备选方案下存在假发现率(FDR)膨胀问题,并提出了一个修改版本(MDACT),通过数值积分计算统计量分布以提高 p 值准确性。
虽然 JS 混合物和 MDACT 在性能方面有所改进,但它们在效率方面理论上并不最优。FDR 文献大致分为基于 p 值和局部 FDR 的拒绝区域。局部 FDR 是一种贝叶斯方法,通过根据观察到的统计量,对案例为零的后验概率对假设进行排序,这种排名通常与基于 p 值的排名不同。已经证明,除对称备选项外,基于局部 FDR 和 p 值的排序存在分歧。此外,证明基于局部 FDR 的预言机程序最优:在所有控制边际 FDR(mFDR)的方法中,局部 FDR 方法产生最多的拒绝。虽然对称方案的功率优势可以忽略不计,但当备选分布不对称时,效率优势变得显著。基于这些理论特性,Roy等人提出了 MLFDR(图1,https://github.com/asmita112358/MLFDR),一种基于 FDR 的局部筛选算法,专门用于高维介导分析。

图1 MLFDR框架
本文贡献如下:
1. 局部 FDR 的概念扩展到复合原假设,推导出一个带有对应假发现比例(FDP)闭式表达式的筛选规则。
2. 在多种数据类型中验证该方法——包括连续变量和二元变量,以及暴露-介质相互作用场景——展示了在不同模型规格下的稳健性能。特别采用替代变量分析(SVA),以调整潜在混杂因素,并展示该方法在多介质设置下的疗效,伴随单变量或临床结局。
3. MLFDR 在保持渐近 FDR 控制的同时,提供了相较现有方法的最佳功率提升。大量模拟证实其在功率和误差率控制方面优于 MDACT 和 HDMT。
4. 在相对温和假设下,为模型的可识别性和全局最优性提供理论保证,证明了预言机和自适应程序的 FDR 控制。
该工作在两个具体方面推动了该领域的发展:(i)为系数αi和βi引入了一般先验,以估计计算局部 FDR 的精确后验密度,而非依赖近似;以及(ii)为通过 EM 算法获得的局部 FDR 估计提供理论保证,这一性质在此之前尚未确立。
参考文献
[1] Roy A, Zhang X (2026) Powerful large scale inference in high dimensional mediation analysis. PLoS Comput Biol 22(1): e1013880. https://doi.org/10.1371/journal.pcbi.1013880
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-2 22:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社