zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

局部搜索以高效估计因果效应

已有 1447 次阅读 2023-4-21 15:10 |个人分类:科普|系统分类:科普集锦

局部搜索以高效估计因果效应 

因果推理的基本任务之一是估计治疗对结果的因果效应(又称治疗效应)。因果效应估计在计算机科学、流行病学、心理学和计量经济学等许多领域引起了越来越多的关注。随机对照试验(RCT)被认为是估计因果效应的最可靠手段,但由于伦理问题和/或高昂的费用,随机对照试验往往不可行。因此,使用观测数据估计因果效应已被探索为随机对照试验的一个重要替代方案。 

根据观测数据,调整协变量是消除因果效应估计中混淆偏差的主要方法。图因果模型为确定有效调整集提供了理论框架。例如,给定表示潜在因果机制的因果DAG(有向无环图),可以采用后门准则来确定有效的调整集。 

在许多现实世界的应用中,用户不知道潜在的因果DAG,因此必须使用数据驱动的方法来直接从观测数据中估计因果效应。然而,使用数据驱动的方法,如果不做出某些假设,就无法获得因果效应的唯一估计。具体来说,从观测数据来看,通常情况下,我们只能用因果图建模方法来学习因果结构的马尔可夫等价类,而不是唯一的因果结构,并且我们不知道马尔可夫等价类中的哪个结构是真正的因果结构。因此,基于马尔可夫等价类结构的因果效应估计是有界估计,即所有可能的因果效应的集合,每个因果效应对应于马尔可夫等价类中的结构。例如, IDADAG不存在时的干预)从满足因果充分性的数据中估计因果效应。IDA的输出是有界估计,这是结构学习中的非唯一性结果。有界估计可能具有很宽的范围,因此可能无法为用户提供因果效应值所在的良好指标。例如,用户甚至可能不知道因果效应是积极的还是消极的。因此,希望获得唯一的因果效应估计。 

此外,在实践中,通常存在未观察到的(或潜在的)混杂变量,因此因果充分性假设不成立。已经开发了一些方法,用于从具有潜在变量的数据中估计因果效应。例如,CE-SAT使用基于SAT的推理来估计具有潜在变量的数据的因果效应,但它只能处理少量变量(最多20个左右)。LVIDA(潜在变量IDA)使用FCI(快速因果推理)来搜索最大祖先图(MAG)的马尔可夫等价类,并在等价类上运行类似IDA的过程。与IDA一样,它通常输出有界估计,并且由于全局结构学习方法的高计算成本,很难扩展到具有数十个或更多变量的大型数据集。DICE算法在局部因果结构中搜索调整集,这显著提高了效率,但DICE找到一个或多个调整集的超集,因此仍然只提供有界估计。EHS算法采用条件独立性测试来识别调整集。它可以返回有效的调整集和唯一的因果效应估计。然而,EHS的效率非常低,因为它对条件独立性测试的所有变量组合进行了详尽的搜索。此外,EHS确定的调整集可能包含很多冗余变量,这可能导致对因果效应的不准确估计。 

为了克服上述问题,设计的新方法目标需要同时解决数据驱动的因果效应估计中的两个挑战(从数据中找到因果结构或调整集的不确定性和低效率)。如上所述,现有的方法具有很高的时间复杂性。例如,LVIDAEHS的时间复杂性在最坏情况下为Op2p−1),其中p表示变量的数量。局部因果发现技术的进步显著提高了从数据中学习因果结构的效率,但尚未进行使用局部因果发现方法从具有潜在变量的数据中确定调整集的研究。Cheng等人首先发展了一个定理,以支持使用局部搜索方法从具有潜在变量的数据中确定适当的调整集。然后,开发了一种新的数据驱动方法,CEELSCausal Effect Estimation by Local Search),在一种称为COSOCause of Or Sharing a latent different with the treatment Only)变量假设的可测试假设下,从具有潜在变量的数据中找到唯一和无偏因果效应估计的最小调整集。CEELS非常快速,因为它可以进行局部搜索和高效的模式挖掘策略来发现调整集。 

CEELS论文有两大贡献:

1)在给定具有潜在变量的观测数据的情况下,可以通过局部搜索找到调整集。局部搜索的使用将适当调整集的搜索空间减少为O2q),其中qPAG中与结果相邻的节点的数量,qp

2)开发了一种有效的数据驱动算法CEELS,用于从具有潜在变量的观测数据中识别有效的调整集。CEELS是第一种实用的数据驱动方法,用于通过局部搜索从具有潜在变量的数据中找到有效的调整集。实验表明,与基于全局搜索的算法相比,CEELS的效率要高得多。 

来看看CEELS在错误率和运行效率方面的比较结果,在错误率方面CEELS都要优于其他方法(图1),运行时间也更短(图2)。 

image.png

1 利用基于INSURES生成的数据集,通过不同方法估计因果效应的相对误差。EHSLVIDA-FCILVIDA-rFCI未显示,因为它们在两小时内未返回结果。CEELS优于其他六种调整标准/方法。 

image.png

2 CEELSEHSLVIDA-FCILVIDA-rFCI与两组数据集(顶部:第一组数据集;底部:第二组数据集)的运行时间(秒)(Y轴上的log10)。CEELS在所有数据集上都比其他数据集更快。 

如果对高效估计因果效应的局部搜索方法CELLS感兴趣,可以通过文献[1]看看算法细节。 

参考文献

[1] Cheng D, Li J, Liu L, et al. Local search for efficient causal effect estimation. IEEE Transactions on Knowledge and Data Engineering, 2022. doi:10.1109/tkde.2022.3218131

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

 

image.png




https://blog.sciencenet.cn/blog-571917-1385109.html

上一篇:癌症中药物-基因组互作概况
下一篇:估计因果效应的局部因果发现
收藏 IP: 39.129.48.*| 热度|

1 檀成龙

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 20:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部