博文

高维介导分析中的大规模推断

已有 1633 次阅读 2026-2-2 19:42 |个人分类:科普|系统分类:科普集锦

高维介导分析中的大规模推断

介导分析是解读基因组关联研究（GWAS）中疾病遗传关联背后的生物学机制的关键工具。通过弥合遗传变异与临床结局之间的差距，介导分析揭示了中间通路并阐明因果关系。随着 GWAS 持续揭示大量遗传关联，将这些发现转化为精准医疗和治疗开发的可作洞见变得愈发重要。例如，吸烟会改变 DNA 甲基化和基因表达;同时，DNA 甲基化通常直接调控基因表达。因此，研究 DNA 甲基化对基因表达的介导作用——尤其是在吸烟等环境暴露下——至关重要。然而，这些分析因高维结局和临床混杂因素（如患者年龄）而复杂，这会影响基因表达和 DNA 甲基化异质性。

历史上，引入了基于回归的介导分析定义，通常称为“系数乘积法”，该方法考察暴露介质因子和介质因子-结局系数乘积的显著性。近年来，文献通过“反事实框架”扩展，该框架为各种模型中自然的直接和间接效应提供了因果解释，包括具有非线性和二元或生存结果的模型。

设 X 为暴露，M_i 为介导子，Y 为结果。在系数乘积法下，介导分析检验虚无假设 H₀,_i: α_iβ_i= 0，其中α_i代表 X 对 M_i 的影响，β_i代表 M_i 对 Y 的影响。这形成了一个复合原假设，包含三种不同的情况：（i） α_i= 0， β_i≠ 0;（ii） α_i≠ 0，β_i= 0;或（iii） α_i= 0，β_i= 0。假设没有未测量的混杂因素，经典检验如 Max-P 和Sobel检验在（iii）情形下是保守的，因为统计推断通常由案例（i）和（ii）确定的分布推导出来。然而，在全基因组研究中，组学数据稀疏意味着大多数标记的 α_i= 0 和 β_i= 0 都成立。近期方法如 JS 混合（HDMT）和 DACT试图通过显式建模零的复合性质来解决这个问题。JS 混合比通过使用最大 p 值的混合零分布来提升功率，并调整的程序以估计组分比例。DACT 分别估计无效α_i和β_i的比例，以结合具体病例的 p 值。然而，最近证明了DACT 在密集备选方案下存在假发现率（FDR）膨胀问题，并提出了一个修改版本（MDACT），通过数值积分计算统计量分布以提高 p 值准确性。

虽然 JS 混合物和 MDACT 在性能方面有所改进，但它们在效率方面理论上并不最优。FDR 文献大致分为基于 p 值和局部 FDR 的拒绝区域。局部 FDR 是一种贝叶斯方法，通过根据观察到的统计量，对案例为零的后验概率对假设进行排序，这种排名通常与基于 p 值的排名不同。已经证明，除对称备选项外，基于局部 FDR 和 p 值的排序存在分歧。此外，证明基于局部 FDR 的预言机程序最优：在所有控制边际 FDR（mFDR）的方法中，局部 FDR 方法产生最多的拒绝。虽然对称方案的功率优势可以忽略不计，但当备选分布不对称时，效率优势变得显著。基于这些理论特性，Roy等人提出了 MLFDR（图1，https://github.com/asmita112358/MLFDR），一种基于 FDR 的局部筛选算法，专门用于高维介导分析。

图1 MLFDR框架

本文贡献如下：

1. 局部 FDR 的概念扩展到复合原假设，推导出一个带有对应假发现比例（FDP）闭式表达式的筛选规则。

2. 在多种数据类型中验证该方法——包括连续变量和二元变量，以及暴露-介质相互作用场景——展示了在不同模型规格下的稳健性能。特别采用替代变量分析（SVA），以调整潜在混杂因素，并展示该方法在多介质设置下的疗效，伴随单变量或临床结局。

3. MLFDR 在保持渐近 FDR 控制的同时，提供了相较现有方法的最佳功率提升。大量模拟证实其在功率和误差率控制方面优于 MDACT 和 HDMT。

4. 在相对温和假设下，为模型的可识别性和全局最优性提供理论保证，证明了预言机和自适应程序的 FDR 控制。

该工作在两个具体方面推动了该领域的发展：（i）为系数α_i和β_i引入了一般先验，以估计计算局部 FDR 的精确后验密度，而非依赖近似;以及（ii）为通过 EM 算法获得的局部 FDR 估计提供理论保证，这一性质在此之前尚未确立。

参考文献

[1] Roy A, Zhang X (2026) Powerful large scale inference in high dimensional mediation analysis. PLoS Comput Biol 22(1): e1013880. https://doi.org/10.1371/journal.pcbi.1013880

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC