||
估计因果效应的局部因果发现
根据观测数据估计平均治疗效果(ATE)通常需要结构知识,可以用因果图形式表示。虽然有丰富的文献提供了在已知因果图的情况下识别和估计因果效应的方法,但许多应用程序要求我们研究当因果图未知时,ATE可能取的值。在这种情况下,我们可以(i)进行因果发现,使用观测数据来识别马尔可夫等价类(MEC)图;以及(ii)为MEC中的每个图估计期望的ATE,从而识别可能的ATE值集合。
因果发现已经在各种假设下进行了研究。在因果充分性(即没有未观察到的变量)和忠实性的情况下,PC算法可以从观测数据中识别真实图的MEC。然而,完全表征MEC在计算上可能是昂贵的。针对这一问题,Maathuis等人证明了利用节点周围的局部结构足以识别ATE值集合。利用这一见解,现有的局部因果发现算法能发现PC可能发现的任何节点的父母和子女节点。这些方法顺序地发现处理周围的局部结构、邻居等等,直到所有邻居都被定向(或者没有剩余的邻居可以被定向)时终止。
本次,又介绍一种局部因果发现算法(Local Discovery with Eagle Collider Checks,LDECC),它提供了一种替代方法来定位变量X的父母节点。最初,LDECC在X周围执行局部发现以发现其邻居。随后,在给定图的状态下,LDECC选择与PC相同的条件独立性(CI)测试。但有一个关键的例外:每当找到两个节点A和B,LDECC立即检查当X被添加到条件集时,它们是否变得依赖。如果测试揭示了依赖性,那么X必须是位于从A到X或从B到X的某条路径的交叉点上的对撞机或对撞机的后代。在此基础上,LDECC可以将X邻居的最小子集定向为{A,B}的d分离。在忠实条件下,所确定的ATE集等于ATE值集合。
LDECC使用一种简单的算法来表示现有局部因果发现算法的基本思想,称之为顺序发现(SD),该算法在局部顺序运行PC算法以进行局部结构学习。虽然现有算法在细微方面与SD不同,但它们与SD共享关键步骤,使LDECC能够与这类现有算法进行比较。LDECC在计算需求方面与SD互补优势。因此,可以可以进行有益的组合(通过并行运行LDECC和SD,并在任一算法终止时终止),如果任一算法的运行时间是次指数的,则可以避免指数运行时间,从而扩展了可以进行有效局部发现的图类别。
此外,根据其忠实性要求,对SD和LDECC进行了比较。结果表明,SD和PC在识别ATE值集合时需要的假设比识别整个MEC时需要的假定弱。还发现,LDECC和SD依赖于不同的忠诚度假设。有几类忠实违规行为,其中一种算法会正确识别ATE值集合,而另一种则不会。在假设算法的忠实性假设之一是正确的情况下,提出了一个恢复ATE集上保守界的过程。为了明确这一界限,作者们证明了LDECC和SD可以结合起来构建一个程序,该程序可以在严格较弱的假设下识别ATE值集合,再次强调了LDECC相对于现有方法的互补性。最后,作者们在合成图(图1)和半合成图(图2)上实证测试了LDECC,并表明它的性能与SD(和PC)相当,并且通常比SD运行更少的条件独立性(CI)测试。
图1 在合成线性高斯图的比较结果
图2 在半合成MAGIC-NIAB线性高斯图的比较结果
详细算法描述可以参见文献[1],LDECC相关代码可以从https://github.com/acmi-lab/local-causal-discovery中获取。
参考文献
[1] Gupta S, Childers D, Lipton Z C. Local Causal Discovery for Estimating Causal Effects. arXiv preprint arXiv:2302.08070, 2023.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-21 05:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社