zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

causarray:在单细胞转录组数据中发现因果关系

已有 195 次阅读 2026-4-11 10:49 |个人分类:科普|系统分类:科普集锦

causarray:在单细胞转录组数据中发现因果关系 

基因组学研究的出现彻底改变了我们对生物系统和疾病机制的理解。特别是,单细胞 RNA 测序(scRNA-seq)技术的进步,以前所未有的分辨率解析了细胞水平的基因表达,从而能够详细表征细胞异质性及其与健康和疾病的相关性。同样,理解调控人类细胞表型的调控回路长期以来被认为是一项艰巨的挑战,但近年来,诸如基于 CRISPR 的混合扰动实验等实验创新,正使这一目标变得越来越容易实现。 

然而,要充分发挥这些技术的潜力,需要超越单纯关联分析的分析框架,从而在单细胞分辨率下揭示因果关系。关联研究旨在识别治疗方法与治疗结果之间的相关性。因果推断旨在评估干预措施对结果的影响。潜在结果框架是因果推断中广泛应用的一种方法,它将观察到的结果与其未观察到的对应结果(即反事实)进行对比,从而量化因果效应。构建此类因果模型对于理解生物过程和疾病机制至关重要,对治疗、精准医疗、基因组医学及相关领域具有重要意义。 

利用单细胞 RNA 测序(scRNA-seq)和 CRISPR 数据进行因果推断的主要挑战之一是存在未测量的混杂因素,这些混杂因素包括基因表达相关性等生物学因素以及批次效应等技术因素。此外,大多数基因组学研究本质上是观察性的。与随机对照试验不同,观察性研究缺乏对疾病或治疗分配机制的完整了解,这会导致反事实估计中出现潜在的偏差。在 CRISPR 筛选中,受扰动的细胞与非靶向对照组进行对比,但分配并非完全随机:细胞大小或差异暴露等连续的细胞水平变量可能会渗入效应估计中,而体内更复杂的细胞环境会加剧混杂因素,从而放大这一问题。尽管体内 CRISPR 筛选是可行的,但许多筛选仍然依赖于少数研究充分的细胞系,这限制了其结果的普遍适用性。随着扰动技术的规模扩大,包括多模态检测,对明确模拟未测量混杂因素的稳健因果推断的需求变得更加迫切。 

未测量的混杂因素的存在会削弱观察性研究中因果结论的有效性。现有的因果估计方法,例如 CoCoA-diff CINEMA-OT,依赖于匹配技术,这些技术假设因果结构在治疗组和对照组之间可以转移。然而,当协变量分布在不同组间存在显著差异时,这一假设便不再成立,从而导致估计结果出现偏差。另一方面,为了校正统计推断中的混杂因素和不必要的变异,其他方法,例如替代变量分析 (SVA)和去除不必要的变异 (RUV) ,通过线性模型假设协变量和结果之间存在加性关系。虽然这些方法对某些批量 RNA-seq 数据集有效,但它们通常无法捕捉单样本 RNA-seq 数据集中固有的稀疏性、零膨胀和过度离散性。应对这些挑战需要将稳健的混杂因素调整与灵活的建模技术相结合,以确保在复杂的基因组数据中进行有效的因果推断。 

针对这些挑战,Du等人提出了一种新的框架causarray(图1https://github.com/jaydu1/causarray),用于在组学研究中应用因果推断。该方法利用针对计数数据定制的广义因子模型来解释未测量的混杂因素,从而确保在保留生物学信号的同时,对未测量的混杂因素进行稳健的调整。此外,它还依赖于潜在结果框架,并采用稳健的估计程序,该程序结合了结果模型和倾向评分模型,即使其中一个模型设定错误,也能确保可靠的统计推断。该框架有效地解决了由可观测和不可观测的混杂因素引入的偏差,使其特别适用于分析伪批量和单细胞水平的复杂基因组数据。通过将先进的统计和机器学习技术与因果推断框架相结合,该方法能够进行一系列下游分析,包括反事实分布的精确估计、因果基因检测和条件处理效应分析。这种方法不仅提高了基因组分析的可解释性和精确性,而且还揭示了疾病或扰动条件下基因表达动态的关键见解,从而增进了我们对潜在生物学机制的理解。 

image.png 

1 所提出的 causarray 方法概述。a,伪批量数据和单细胞数据的生成过程示意图。b,第一步,通过广义线性模型 (GLM) 将基因表达矩阵 Y 与处理 A、测量协变量 X 和混杂变量 U 关联起来。细胞水平大小因子 s 和基因水平离散参数 φ 由数据估计得出,而未测量的混杂因素 U 则通过增强型 GCATE 方法估计得出。第二步,可应用广义线性模型和灵活的机器学习方法(包括随机森林和神经网络)进行结果建模和倾向性建模。第三步,利用估计的结果和倾向性评分函数的预测值,得出每个细胞和每个基因的潜在结果估计值。d,下游分析包括对比估计的反事实分布、进行因果推断以及估计条件平均处理效应 

通过对多个模拟数据集进行基准测试,验证了 causarray 的有效性,并将其性能与现有的单细胞水平扰动分析方法和伪批量水平差异表达分析方法进行了比较。作者们将 causarray 应用于两项单细胞基因组学研究:一项是 Perturb-seq 研究,旨在探究发育中小鼠大脑中自闭症谱系障碍/神经发育障碍 (ASD/ND) 基因;另一项是使用人脑转录组数据集开展的阿尔茨海默病病例对照研究。在阿尔茨海默病分析中,作者们使用三个独立的数据集验证了发现,展示了 causarray 在识别因果基因和揭示具有生物学意义的通路方面的稳健性和可重复性。这些应用凸显了 causarray 通过对通用组学进行严格的因果推断,增进我们对复杂疾病机制理解的潜力。 

参考文献

[1] Jin-Hong Du, Maya Shen, Hansruedi Mathys, Kathryn Roeder. Uncovering causal relationships in single-cell omic studies with causarray bioRxiv 2025.01.30.635593; doi: https://doi.org/10.1101/2025.01.30.635593 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1529900.html

上一篇:FlowerBase:花卉集成多组学数据库
下一篇:Harmony2:整合大型、复杂的单细胞数据集
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-11 14:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部