||
通过交集基数凹度检测动态因果性
与统计相关性相比,因果关系为复杂系统中变量之间的关系提供了更深入的理解和描述。因果推理算法已广泛应用于自然科学和工程领域的许多领域,如地球科学、经济学、医学、神经科学和机器学习。量化因果关系的研究工作可以追溯到 20 世纪 20 年代初 Neyman 的开创性工作。随机对照试验(RCT)已成为因果推断的金标准。然而,在实践中,大多数 RCT 成本高昂或受伦理限制。因此,仅通过观察数据推断因果关系,从理论和应用角度来看都具有重要意义。该领域的最早工作,名为潜在结果模型(POM),来自 Rubin 等人,他们基于不可忽略性假设(也称为无混杂性)计算平均因果效应(ACE)。后来,Pearl 在有向无环图(DAG)中引入了 do 演算,并证明了结构因果模型(SCM)和潜在结果模型(POM)的因果等价性。但 SCM 基于已知的 DAG 进行因果推断,而在实际问题中通常无法获得这些 DAG,并且存在无法区分的马尔可夫等价类。许多相关算法,如著名的 PC 算法、LiNGAM 算法、GES 算法、MMPC 算法及其变体已被开发出来,主要用于处理时间独立数据或干预数据。然而,对于在现实世界中广泛存在的时间序列数据,这些算法并未充分利用数据中包含的底层动态信息。
相比之下,从动力学角度进行的因果推断够有效克服上述困难,例如传统的格兰杰因果性(GC)。GC 的核心思想是:如果变量x的过去对预测变量y的未来有帮助,那么x被称为y的格兰杰原因。通过引入信息熵,传递熵(TE)将 GC 推广到非线性因果关系。尽管这两种方法在近期研究中得到了不断改进,但它们仍然存在非可分离性问题。实际上,根据嵌入理论,从确定性非线性系统中完全消除非独立变量的信息通常是不可能的。将相空间重构与交叉映射技术相结合可以有效解决非可分离性问题。其中一种代表性方法是收敛交叉映射(CCM),它通过交叉映射检测因果变量与效应变量之间的一致性。最近,Leng 等人结合了 CCM 和偏相关,提出了偏交叉映射(PCM),用于检测复杂系统中的直接因果关系。然而,CCM/PCM 中的局部线性操作限制了它们在检测非线性因果关系方面的性能。
最近,为了稳健地检测时间序列数据中的非线性因果关系,Tao等人提出了一种无模型的交叉映射基数(cross-mapping cardinality,CMC)方法(图1,https://github.com/PengTao-HUST/crossmapy),该方法基于一个新的因果概念,即交集基数(IC)的凹性。它从原因变量的邻居到延迟嵌入空间中结果变量的交叉映射邻居量化 IC,从而避免了现有方法中的线性运算。特别是,通过理论和计算证明,凹向下的 IC 曲线相对于邻居大小实际上意味着动态因果关系,这与线性 IC 曲线的非因果关系情况形成对比。此外,作者们还推导出直接 CMC(DCMC),它能够进一步检测直接因果关系。因此,DCMC 可以处理非线性和间接情况,同时解决非可分离性和强关联问题。作者们证明 CMC 在不同基准数据集上达到了最先进的(SOTA)性能。 此外,对于实际系统,CMC 获得的因果关系比 CCM 和 PCM 更具可解释性,特别是在对恒河猴进行的拦截实验中。简而言之,随着 IC 凹性的新概念的提出,CMC 是一种强大的数据驱动因果网络重建方法,能够帮助我们更好地理解和模拟复杂的动力系统。

图1 交叉映射基数 (CMC) 方法的示意图。(a) x(t)和y(t) (t = 1, 2, ..., L) 分别表示变量 x 和 y 在原始状态空间中的观测时间序列。通过延迟坐标嵌入,可以在延迟嵌入空间中重建两个相应的流形,其中嵌入维度 E 设置为 3 以便于显示。(b) 在延迟嵌入空间中,为了定义因果强度(或分数),定义了两个相反的模型 H1(从 y 到 x 的因果联系)和 H0(从 y 到 x 没有因果联系)。对于H1模型,AUC (H1) > 0.5kN。对于H0模型,由于不存在从 y 到 x 的因果关系,AUC(H0) ≈ 0.5kN。基于H1和H0模型之间的差异,CMC 方法的归一化因果强度(除以 kN)定义为 2(𝐴𝑈𝐶( H1) − 0.5)。(c)方法的三种典型应用场景
参考文献
[1] Tao P, Wang Q, Shi J, Hao X, Liu X, Min B, Zhang Y, Li C, Cui H, Chen L. Detecting dynamical causality by intersection cardinal concavity. Fundam Res. 2023 Feb 6;5(6):2880-2891. https://doi.org/10.1016/j.fmre.2023.01.007
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-16 16:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社