zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

高维介导分析中的大规模推断

已有 186 次阅读 2026-2-2 19:42 |个人分类:科普|系统分类:科普集锦

高维介导分析中的大规模推断 

介导分析是解读基因组关联研究(GWAS)中疾病遗传关联背后的生物学机制的关键工具。通过弥合遗传变异与临床结局之间的差距,介导分析揭示了中间通路并阐明因果关系。随着 GWAS 持续揭示大量遗传关联,将这些发现转化为精准医疗和治疗开发的可作洞见变得愈发重要。例如,吸烟会改变 DNA 甲基化和基因表达;同时,DNA 甲基化通常直接调控基因表达。因此,研究 DNA 甲基化对基因表达的介导作用——尤其是在吸烟等环境暴露下——至关重要。然而,这些分析因高维结局和临床混杂因素(如患者年龄)而复杂,这会影响基因表达和 DNA 甲基化异质性。 

历史上,引入了基于回归的介导分析定义,通常称为系数乘积法,该方法考察暴露介质因子和介质因子-结局系数乘积的显著性。近年来,文献通过“反事实框架”扩展,该框架为各种模型中自然的直接和间接效应提供了因果解释,包括具有非线性和二元或生存结果的模型。 

X 为暴露,Mi 为介导子,Y 为结果。在系数乘积法下,介导分析检验虚无假设 H0,i: αiβi= 0,其中αi代表 X Mi 的影响,βi代表 Mi Y 的影响。这形成了一个复合原假设,包含三种不同的情况:(i αi= 0 βi≠ 0;ii αi≠ 0βi= 0;或(iii αi= 0βi= 0。假设没有未测量的混杂因素,经典检验如 Max-P Sobel检验在(iii)情形下是保守的,因为统计推断通常由案例(i)和(ii)确定的分布推导出来。然而,在全基因组研究中,组学数据稀疏意味着大多数标记的 αi= 0 βi= 0 都成立。近期方法如 JS 混合(HDMT)和 DACT试图通过显式建模零的复合性质来解决这个问题。JS 混合比通过使用最大 p 值的混合零分布来提升功率,并调整的程序以估计组分比例。DACT 分别估计无效αiβi的比例,以结合具体病例的 p 值。然而,最近证明了DACT 在密集备选方案下存在假发现率(FDR)膨胀问题,并提出了一个修改版本(MDACT),通过数值积分计算统计量分布以提高 p 值准确性。 

虽然 JS 混合物和 MDACT 在性能方面有所改进,但它们在效率方面理论上并不最优。FDR 文献大致分为基于 p 值和局部 FDR 的拒绝区域。局部 FDR 是一种贝叶斯方法,通过根据观察到的统计量,对案例为零的后验概率对假设进行排序,这种排名通常与基于 p 值的排名不同。已经证明,除对称备选项外,基于局部 FDR p 值的排序存在分歧。此外,证明基于局部 FDR 的预言机程序最优:在所有控制边际 FDRmFDR)的方法中,局部 FDR 方法产生最多的拒绝。虽然对称方案的功率优势可以忽略不计,但当备选分布不对称时,效率优势变得显著。基于这些理论特性,Roy等人提出了 MLFDR(图1https://github.com/asmita112358/MLFDR),一种基于 FDR 的局部筛选算法,专门用于高维介导分析。

image.png

1 MLFDR框架 

本文贡献如下:

1. 局部 FDR 的概念扩展到复合原假设,推导出一个带有对应假发现比例(FDP)闭式表达式的筛选规则。

2. 在多种数据类型中验证该方法——包括连续变量和二元变量,以及暴露-介质相互作用场景——展示了在不同模型规格下的稳健性能。特别采用替代变量分析(SVA),以调整潜在混杂因素,并展示该方法在多介质设置下的疗效,伴随单变量或临床结局。

3. MLFDR 在保持渐近 FDR 控制的同时,提供了相较现有方法的最佳功率提升。大量模拟证实其在功率和误差率控制方面优于 MDACT HDMT

4. 在相对温和假设下,为模型的可识别性和全局最优性提供理论保证,证明了预言机和自适应程序的 FDR 控制。 

该工作在两个具体方面推动了该领域的发展:(i)为系数αiβi引入了一般先验,以估计计算局部 FDR 的精确后验密度,而非依赖近似;以及(ii)为通过 EM 算法获得的局部 FDR 估计提供理论保证,这一性质在此之前尚未确立。 

参考文献

[1] Roy A, Zhang X (2026) Powerful large scale inference in high dimensional mediation analysis. PLoS Comput Biol 22(1): e1013880. https://doi.org/10.1371/journal.pcbi.1013880 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1520858.html

上一篇:自闭症谱系障碍中的统计学习研究进展
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-2 22:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部