||
量化变量间直接关联关系
物理学中的观测和测量通常会导致各种变量的概率分布,而研究变量之间的关联性,特别是与因果关系密切相关的变量之间的直接联系是一项至关重要的任务。
1948年,香农将熵引入信息论,以量化变量的信息或不确定性。此后,许多基于香农熵的测量方法被开发出来,用于量化不同变量之间的关联性。互信息(MI)用于度量两个随机变量之间的关联性,条件互信息(CMI)用于度量给定第三个变量值的两个变量之间的关联强度。Williams和Beers试图将信息论扩展到多变量,通过将多变量系统的互信息分解为冗余信息、唯一信息和协同信息,提出了多变量信息结构的新视角。
在信息时代,关联分析被广泛应用于推荐系统、统计遗传学、公共安全等诸多领域。人们提出了许多方法来研究变量之间的模糊关系和关联强度。Pearson相关系数(PCC)被广泛用于衡量变量之间的线性关联性。互信息(MI)和Spearman等级相关系数(SRCC)既能测量线性关联,也能测量非线性关联。协方差矩阵和距离相关用于测量高维变量(如遗传学和天文学)的线性和非线性关联。
Reichenbach阐述了共因原则(common cause principle, RCCP)。 如图1a所示,我们考虑X和Y之间没有直接联系,但它们有一个共同的Z的情况。对于这种情况,X和Y只有间接联系。直接关联是指两个变量之间排除其他变量影响的真实关联。如果有一个共同的父变量影响两个后代变量,那么PCC、MI和SRCC不能区分直接和间接关联。
图1 Reichenbach共因图和链图模型:(a) Reichenbach共因图。没有连接X和Y的边,但它们有一个共同的原因变量Z。这样,X和Y就有了间接的联系。(b)链图模型。Z是父变量,X和Y之间的关系是对称的。(c)三变量网络例子
有一些已知的测量变量之间直接关联的方法。偏相关(Partial correlation, PC)可以度量变量之间的线性直接关联,条件相互信息(conditional mutual information, CMI)可以量化线性和非线性直接关联。然而,如果父变量Z与任何后代变量(X和/或Y)强连接,CMI在测量直接相关时存在不稳定性问题。换句话说,存在直接关联差异较大的案例,而CMI无法区分这些案例之间直接关联的差异。此外,还提出了一些新的方法。Zhang等人考虑了两个子代变量之间的对称关系,基于关于有向边因果强度的定义,提出了条件互包含信息(CMI2)。Zhao等人引入了部分独立性,并定义了部分相互信息(PMI)。Shi等人基于多尺度条件互信息,提出了部分关联(partial association, PA)可以正确地识别多尺度关联网络中的直接关联。
两个相连变量之间的关系可以分为两种类型。第一种类型是一个变量是另一个变量的原因,并且不受另一个变量的影响。第二个是两个变量以直接或间接的方式相互影响。在概率图模型理论中,也有两种边。相应的,有向边通常用来描述两个变量之间的因果关系,无向边可以表示其他更复杂的关系。许多学者使用有向无环图(DAG)来解释因果关系并量化因果强度。然而,当变量之间的关系并不简单地类似于因果关系时,用DAG来描述问题是不准确的。在一个图中包含有向边和无向边有利于表示,特别是当存在两个变量的共同原因时。
最近,Zhao等人使用链图来描述变量之间的关系,并定义了一个新的度量,即独立条件互信息(independent conditional mutual information, ICMI),来量化两个变量之间的直接关联。他们通过消除共同亲本Z对两个子代的影响,正确量化了X和Y之间的线性和非线性直接关联。他们还根据Shi等人提出的某些评价方法,通过数值数据模拟表明,在许多情况下,ICMI比PC和CMI更稳定可靠。作者们还给出了一般考虑和一个符合链图模型的实际示例。介绍了一些现有的测量直接关联的方法,并且详细介绍了ICMI的方法和定义。此外,从数值上讨论了ICMI的性质,并将其与PC和CMI进行了比较。最后,比较了CLHLS的真实数据集的不同方向关联度量。
参考文献
[1] Zhao M, Chen Y, Liu Q, et al. Quantifying direct associations between variables. Fundamental Research, 2024;11:51, https://doi.org/10.1016/j.fmre.2023.06.012
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 03:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社