zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

不可见混杂因素下的动态因果关系推断

已有 234 次阅读 2024-9-5 09:18 |个人分类:科普|系统分类:科普集锦

不可见混杂因素下的动态因果关系推断

在复杂的动力系统中识别因果相互作用是至关重要的,但在各个学科中都具有挑战性,包括生物学、生态学和深度学习,特别是在存在许多看不见/不可观察的混杂因素的情况下。在许多实际系统中,系统细节通常是未知的,只有一些观测值或测量变量是可用的。因此,开发一种准确可靠的基于数据的未观察混杂因素的因果检测方法势在必行,这是数据科学和深度学习领域的一个长期悬而未决的问题。

根据测量数据类型的不同,因果关系推断主要有两种方法:针对横截面数据的统计方法和针对时间序列数据的动态方法。统计学角度的因果关系推断主要认为因果关系包含在随机变量的内部作用中,在时间无关的稳态系统或横截面数据的假设下,可以通过统计随机化或干预来获得因果关系。因果推理的代表性统计方法包括Rubin著名的潜在结果模型(POM)Pearl提出的结构因果模型(SCM),以及许多相关算法,如著名的Peter-Clark (PC)算法、线性非高斯无环模型(LiNGAM)、最优结构识别贪心搜索(GES)、最大最小爬坡贝叶斯网络(MMPC)等。一方面,这些方法主要适用于时间无关数据或干预数据,无法充分利用可广泛获取的时间序列数据的动态信息。另一方面,他们致力于基于已知的有向无环图(DAG)来推断因果关系,这并不适用于许多具有反馈回路的实际系统,并且他们也可能遇到无法区分的马尔可夫等价类。为了克服这些局限性,研究人员从动力学角度提出了许多有效的算法来识别时间序列数据的因果关系,包括格兰杰因果关系(GC)、相互信息预测法、状态空间法、量化信息法、递归图法、收敛交叉法(CCM)、动态因果关系(DC)框架、交叉图评价(CME)、交叉图平滑(CMS)、部分交叉映射(PCM)和基于条件交叉映射的技术等。GC是识别不同变量之间因果关系的著名方法之一,但GC主要适用于线性因果关系。传递熵(Transfer entropy, TE)GC扩展到基于信息论的非线性情况,但它仍然不能处理非线性动力学的不可分性问题。GCTE的核心思想是通过预测一个变量与另一个变量的关系来衡量因果关系。而基于重构的技术则起源于延迟嵌入理论,在此基础上发展了状态空间重构技术,并广泛应用于非线性时间序列分析,包括CCMCMECMS等。这些方法可以通过从时间序列数据中构造一个变量来成功地研究成对因果关系。然而,当试图检测不可观察变量的因果关系时,挑战就出现了。

通常,在复杂系统中的两个变量之间存在许多混杂因素,也称为共同驱动因素,这可能导致虚假因果关系。这些干扰因素可以分为两类,即可见干扰因素和不可见干扰因素。由可见/可观察混杂因素引起的错误或虚假因果关系可以通过条件因果方法消除,如部分交叉映射(PCM)、条件格兰杰因果关系(cGC)、直接CMC因果关系(DCMC)等。然而,这些方法需要遍历整个系统的所有变量,以准确地排除虚假或虚假的因果关系,导致计算成本高且不稳定。特别是,这些方法只有在所有的混杂因素都是可观察或已知的情况下才有效。在实践中,复杂系统中的许多混杂因素是看不见的和未知的,从而使现有的方法失效或容易导致虚假的因果关系。换句话说,现有的大多数方法都不能准确地检测到不可见混杂因素下的因果关系,更不用说对混杂因素的重建了。因此,通过消除不可见混杂因素对一般系统的影响来准确量化因果关系的问题还没有得到充分的研究,仍然是一个突出的问题。迫切需要开发一种新的方法来检测即使有许多看不见的混杂因素的因果关系,并进一步重建这些看不见的混杂因素。

为了填补这一空白,Yan等人开发了一种方法,即不可见混杂因素下的因果关系(Causality under Invisible ConfoundersCIC,图1https://github.com/JinlingY/CIC),以理论和计算的方式从时间序列数据中检测动态因果关系。该方法旨在仅从观测数据中准确地检测因果关系并进一步重建不可见的混杂因素。其核心思想是将原始变量转化为其嵌入延迟的对应变量,然后将其分别分解为其公共子空间和私有子空间,从而量化变量之间的因果关系。作者们提出了新的正交分解定理,保证了这种分解,使缠绕变量在嵌入空间中可分离,从而解决了不可分性问题。请注意,效果变量在延迟嵌入空间中重建其因果变量,而不是在原始空间中,因果变量预测其效果变量。在计算上,作者们采用深度神经网络来有效地进行这种正交分解,从而即使在存在未观察到的混杂因素的情况下,也能够仅从观察到的时间序列数据中准确检测因果关系。

image.png 

1 不可见混杂因素下的因果关系(CIC)方法框架。A. CIC的基本原理。复杂动力系统包含许多影响变量间因果推理的不可观测变量,这就提出了两个挑战。为了解决这一问题,提出了一种基于正交分解定理的CIC框架,以消除原始空间中被误认为是因果关系的虚假链接。B. 延时嵌入空间。C. CIC框架。D.发现因果关系并重建不可见的混杂因素。蓝色曲线、紫色曲线和绿色曲线分别表示xy的因果关系、混杂因素和非因果关系。xy的隐形干扰因子Z可以通过CIC框架进行量化

在这个因果框架中,作者们的正交分解定理为保证动态因果关系提供了理论基础,而深度学习是在计算上实现非线性系统中变量分解和混杂重构的主干。因此,CIC方法为长期存在的错误识别虚假因果影响的问题提供了一种优雅的解决方案,即使存在未观察到的混杂因素。值得注意的是,CIC方法仅使用两个观察到的变量就可以确定因果关系和混杂因素,这是任何其他方法通常无法实现的壮举。与现有的因果推理方法相比,它还具有突出的优势,因为它可以有效地重建未观察到的混杂因素。该方法通过各种基准系统和具有不同因果结构的真实数据集进行了广泛的验证。在各种系统中的应用表明,它是一种强大的工具,可以分析和重建真实的因果网络,仅使用部分观测变量的时间序列数据。

在这项工作中,作者们开发了一种新的方法,CIC,即使在不可见混杂因素的条件下,也能推断动态因果关系。该方法建立在新的理论结果之上,即正交分解定理及其从时间序列数据中实现的VAEVariational Auto Encoder)框架。理论基础确保了对任何高维系统仅使用两个观察变量(数据)进行因果检测,即使存在许多未观察到的混杂因素,这实际上是该领域长期存在的问题。除了坚实的理论基础,该方法有两个独特的优点:1)仅使用两个观察变量的数据来检测与不可见混杂因素的因果相互作用;2)重建不可见混杂因素。除了看不见的混杂因素问题,CIC还能够处理因果推理中另一个臭名昭著的不可分性问题。

通常,非线性系统中变量的动力学是不可分离的,因为它们相互交织在一起。尽管最近提出的许多方法都试图推断因果关系,如基于预测的方法和基于交叉映射的方法,但当系统中存在大量混杂因素时,它们要么错误地将混杂因素中的常见相互作用识别为因果关系,要么失去准确性。CIC方法的一个优点是,它可以区分变量之间的关系,例如,实际的因果关系或由不可见的混杂因素引起的共同相互作用,仅基于成对变量的观察。这消除了引入其他观察变量(如基于条件的方法)的需要。其核心思想在于延迟嵌入空间中的正交分解定理,从理论上和计算上将原始空间中纠缠变量的不可分动力学转化为嵌入空间中纠缠变量的可分动力学,从而解决因果推理的不可分问题。此外,为了区分直接和间接因果关系,识别可见和不可见的混杂因素,将定理1扩展到涉及多个观察变量的条件版本。此外,在计算上,采用深度神经网络高效地实现正交分解,即使存在未观测到的混杂因素,也能仅从观测到的时间序列数据中可靠地检测出因果关系。该方法还应用于各种基准和现实世界数据集,证明了不仅在低维系统中,而且在高维系统中推断因果关系和不可见混杂因素的能力。明确地推断因果关系和混杂因素是恢复复杂系统因果机制的关键。因此,CIC在这一过程中提供了一个强大的工具,有效地解决了以往有影响的研究中出现的混杂问题。

值得注意的是,仍有几个问题值得进一步调查。首先,CIC框架主要依赖于观测或测量数据的时间信息,因此时间序列的样本量不能太小(例如≥10),以保持算法的性能。其次,识别xy之间的混杂因素需要训练两个VAEVariational Auto Encoder)模型:一个是从xy,另一个是从yx。研究如何使用这种方法识别混杂因素是值得的。第三,研究主要集中在非干预系统内的动态因果关系。如何仅根据观察到的时间序列推断干预的动态因果关系仍然是未来研究的一个重要而有趣的问题。

参考文献

[1] Yan J, Zhang S W, Zhang C, et al. Dynamical causality under invisible confounders. arXiv preprint arXiv:2408.05584, 2024.   

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 



https://blog.sciencenet.cn/blog-571917-1449689.html

上一篇:ExpOmics:赋予生物学家强大多组学数据分析能力的全面网络平台
下一篇:深度学习在基因调控网络推理中的应用综述
收藏 IP: 39.128.48.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-7 12:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部