||
SURD:将因果关系分解为协同、独特和冗余成分
对因果关系探索是科学发现的基石。正是通过对因果关系探索,我们才能够理解一个给定的现象,并通过深思熟虑的行动来塑造事件的进程。这加速了因果推理方法的扩散,因为它们有可能推动多个科学领域的进步,并在许多领域取得进展,如气候研究、流行病学、社会科学、自然科学和流体动力学等。
因果关系的一个核心方面是物理影响的概念:对原因的操纵表现为结果的变化。例如,长期暴露在高污染的空气中与慢性呼吸系统疾病的高发病率有因果关系。在这个过程中,因果关系定义仍然是难以捉摸的,但它必须与关联和相关的概念区分开来。相关指的是两个变量之间的统计关系,在这种关系中,它们共同出现的次数比随机发生的次数要多。然而,相关并不自动意味着因果关系。相关可能源于共同的原因、统计巧合或混杂因素的影响。在大量砍伐森林的地区,慢性呼吸道疾病发病率的上升就是一个例子。虽然森林砍伐似乎直接导致呼吸系统健康问题,但这可能主要是由于空气污染的混杂因素。另一方面,相关性是指衡量变量单调强度和方向的一种特定类型的关联。相关性意味着关联,而不是因果关系;因果关系意味着关联,而不是相关。辨别因果关系、关联和相关性对因果关系发现方法的发展提出了重大挑战。最近,Martínez-Sánchez等人介绍了一种因果推理方法,以一种超越简单相关和关联分析的方式促进复杂系统的研究。
要考虑的第一个因素是变量之间相互作用的性质。因果相互作用的基础有三个组成部分:中介效应、混杂效应和碰撞效应。这些相互作用可以交织在一起,同时表现出来,导致更复杂的因果网络。因此,准确地捕捉这些相互作用是忠实地描述更普遍因果模式的关键。考虑用A、B和C表示的三个事件:
l 中介变量(A→B→C)出现在变量A到变量C之间的因果链中,变量B起着桥梁作用。在这种情况下,B通常被视为负责将A的影响传递给C的机制或中介。中介变量有助于解释自变量影响因变量的潜在机制。一个简单的例子是↑教育水平→↑工作技能→↑收入。
l 混杂变量(A←B→C)作为两个变量(B→A和B→C)的共同原因。它们有可能在A和C之间建立统计相关性,即使它们之间没有直接的因果关系。因此,混淆变量可以模糊或扭曲变量之间的真正关系。按照上面的例子,空气污染→砍伐森林,空气污染→呼吸健康状况。
l 对撞机变量(A→B←C)表示作用于同一变量的多个因素的影响:A→B和C→B。这种情况在非线性动力系统中特别相关,其中大多数变量由于耦合而受到多个原因的影响。当A和C对B产生相同的效果或结果时,对撞机就会表现出冗余原因,从而对结果产生重叠或重复的影响。因此,冗余的原因导致多种途径达到相同的效果。例如,努力学习和高智商都可以独立地促进学生的好成绩。注意,A和C不一定是独立的。如果A和C对B的综合影响在单独考虑时超过它们对B的单独影响,则对撞机是协同的。例如,可能需要A和C两种药物同时使用才能有效治疗B类疾病,而B类疾病通常是由A和C两种药物引起的,而B类疾病则是由A和C两种药物引起的。
寻找因果关系的数学定义,准确地识别中介效应、混杂效应和碰撞效应,仍然是一个活跃的研究领域。因果关系最直观的表述之一依赖于干预的概念。该方法通过将A设定为修正值 A~,并观察干预后B的后果,为评估过程A对另一个过程B施加的因果效应提供了一条途径。尽管它很直观,但干预研究并非没有局限性。干预的因果关系是侵入性的(即它需要修改系统)和昂贵的(实验或模拟需要重复)。当从物理实验中收集数据时,通过干预来建立因果关系可能会变得非常具有挑战性或不切实际(例如我们不能使用干预来评估2008年股票市场的因果关系)。此外,干预的因果关系概念提出了应该引入哪种干预问题,以及这种干预是否会影响练习结果,因为它会迫使系统脱离其自然状态。干预性研究也会在神经科学或气候科学等领域引发伦理问题。例如,它们可能涉及操纵生物体的神经功能或改变自然环境条件,可能导致不可逆转的变化或损害。
干预的另一种方法是通过观察发现因果关系。观测方法主要是数据驱动的,不需要改变原始系统。近年来,计算能力的稳步提升,加上大数据的指数级增长,极大地促进了观测技术的广泛采用。其中一种开创性的方法植根于预测模型的使用。这个概念最初是由维纳提出的,后来由格兰杰量化。格兰杰因果关系(GC)通过评估在自回归模型中包含B如何减少A的预测误差来衡量从过程B到A的因果关系。GC最初是为线性二元关系开发的,后来扩展到包括非线性和多元场景,在从计量经济学到流体动力学和生物学等不同领域找到了应用。
为了克服GC的局限性,也提出了用于因果发现的无模型方法。该领域的一个领先方法是收敛交叉映射(convergent cross-mapping,CCM)及其变体,它利用Takens嵌入定理来建立变量与系统吸引子之间的联系。另一种方法,称为连续性缩放,通过检查控制系统连续性的缩放定律,直接评估因果关系。
信息理论也被用作无模型因果关系量化的框架。信息论的成功依赖于信息作为物理系统的基本属性的概念,与物理定律的限制和可能性密切相关。因果关系作为信息的基础是植根于信息和时间之间的密切联系。系统在宏观层面上存在的时间不对称性可以利用基于香农熵的信息理论度量来衡量事件的因果关系。因果关系信息论的最初应用是通过使用条件熵正式建立的,采用了所谓的定向信息。其中最被认可的贡献是传递熵(TE),它通过了解另一个变量的过去状态来度量关于其未来状态的熵的减少。已经提出了各种改进来解决TE的固有局限性。其中,条件传递熵(CTE)是条件GC的非线性非参数推广。但该方法的后续进展包括CTE的多元公式和瞬时信息传递,其中通过检查每个时间步长的信息传递,可以得到CTE的多元公式和瞬时信息传递。其他信息论方法,源自动力系统理论,将因果关系量化为由控制方程规定的从一个过程流向另一个过程的信息量。
另一类因果推理方法依赖于进行条件独立性测试。这种方法是由Peter-Clark算法(PC)推广的,随后的扩展包含了瞬时条件独立性(PCMCI)的测试。PCMCI旨在最佳地识别包括目标变量的父变量在内的简化条件集。这是一个很好的例子,它被证明在准确检测因果关系的同时控制假阳性是有效的。最近,新的PCMCI变体被开发出来,用于识别瞬时连接、其他混杂因素和依赖关系。
上述因果推理方法极大地促进了我们对复杂系统中因果相互作用的理解。尽管取得了进展,但目前方法面临着非线性依赖、随机相互作用(即噪声)、自因、中介、混杂和对撞机效应等方面的限制。此外,它们不能将因果相互作用分类为冗余、独特和协同,这对于识别系统内的基本关系至关重要。现有方法的另一个缺陷是它们无法量化由于未观察到的变量而无法解释的因果关系。为了解决这些缺点,Martínez-Sánchez等人提出了SURD(Synergistic-Unique-Redundancy Decomposition of causality,图1)方法。SURD提供了冗余、独特和协同贡献方面的因果量化,并提供了隐藏变量因果关系的度量。该方法可用于检测具有多个变量、不同时间滞后的依赖关系和瞬时连接的系统中的因果关系。作者们已经在大量场景中展示了SURD的性能,这些场景已被证明对因果推理具有挑战性,并将结果与以前的方法进行了比较。
图1 SURD提供了冗余、独特和协同贡献方面的因果量化
SURD工具实用Python编写,详细链接见:https://github.com/Computational-Turbulence-Group/SURD
参考文献
[1] Martínez-Sánchez Á, Arranz G, Lozano-Durán A. Decomposing causality into its synergistic, unique, and redundant components. Nat Commun. 2024 Nov 1;15(1):9296. doi: 10.1038/s41467-024-53373-4.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-2 20:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社