zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

缺失值条件下推断基因调控网络:因果视角

已有 417 次阅读 2024-6-5 13:53 |个人分类:科普|系统分类:科普集锦

缺失值条件下推断基因调控网络:因果视角

基因调控网络(Gene Regulatory Network, GRN)代表了控制细胞中基因活动的因果关系,对于理解生物过程和癌症等疾病至关重要。通常,对于p个基因,GRN是一个图,其中节点Z表示基因表达,有向边表示基因调控。传统的基于实验室的GRNI涉及基因敲除实验,但进行所有组合干预是具有挑战性的。相比之下,通过RNA测序,观察到的表达数据丰富。在过去的十年中,单细胞RNA测序(scRNA-seq)变得普遍,使得在单个细胞水平对癌症的全面研究成为可能。为了利用这些进步,GRNI的因果发现技术也得到了稳步发展。

尽管scRNA-seq具有优势,但一个被称为缺失值问题的基本挑战出现了。众所周知,scRNA-seq数据显示出大量的零。虽然其中一些零对应于真正的基因表达生物学缺失,其他一些是测序过程中产生的技术零,通常被称为技术缺失(dropout)。许多因素被普遍认为是导致技术缺失的原因,包括低RNA捕获效率、mRNA分子的间歇性降解和PCR扩增偏差。技术缺失问题已被证明会引入偏见,并对各种下游任务构成威胁,包括基因调控网络推断。

处理scRNA-seq数据中的缺失主要有两种策略。一种方法涉及使用概率模型,如零膨胀模型或障碍模型来表征技术缺失基因表达的分布。然而,由于限制性参数假设,这些方法的灵活性可能有限。另一种方法是缺失值填充,其中所有的零都被视为缺失值,并被输入以估计没有遗漏的基因的潜在分布。然而,由于底层分布固有的不可识别性,计算方法往往缺乏理论保证。实证研究也表明,在各种下游任务中使用缺失值填充时,效果好坏不一或没有改善。总的来说,尽管有各种尝试,目前仍然没有一个原则性和系统性的方法来有效解决scRNA-seq数据中的技术缺失问题。

虽然GRN在表达过程中代表了基因之间的因果调控,但我们是否也可以将这种理解扩展到测序过程中技术缺失的因果机制?有了这个动机,Dai等人通过提出一个因果图模型抽象了对技术缺失机制的共同理解,称为因果技术缺失模型。由于技术缺失导致的scRNA-seq数据中观察到的零是不可忽略的,这意味着原始数据的分布在没有进一步假设的情况下是不可恢复的。然而,令人惊讶的是,鉴于对技术缺失机制的这种定性理解,我们可以简单地忽略条件变量为零值的数据点,从而导致条件独立性(conditional independenceCI)关系的估计与原始数据中的估计一致。这种见解很容易弥合技术缺失污染测量和GRNI之间的差距,并具有渐近正确性保证。Dai等人进一步提供了一种系统的方法来从观察中验证这种退出机制。

基于对技术缺失机制的共同理解,Dai等人开发了因果缺失模型来表征这些机制。尽管技术缺失导致不可忽略的观察到的零,作者们开发了一个测试式删除程序来可靠地执行CI检验,它可以无缝地集成到现有的因果发现方法中来处理技术缺失,并且在温和的假设下是渐进正确的。此外,因果缺失模型作为一个系统框架来验证文献中研究的缺失定性机制是否有效,并从观察中了解这种机制。在模拟和现实世界数据集上进行的大量实验表明,因果缺失模型在实践中可以提高性能。一个可能的限制是在测试删除后样本量的减少,未来的工作包括开发一种实用的方法来解决这个问题。

可以说,该项工作提出的因果缺失模型实际上是一种数据预处理方法。该模型不对缺失值进行填充,而是直接删除条件变量为零的数据样本或者所有涉及的变量为零的数据样本。在某种程度上减少了样本量,很适用于大样本数据,而不用与本来就很小的样本数据。相关代码参见:https://github.com/MarkDana/scRNA-Causal-Dropout

参考文献

[1] Dai H, Ng I, Luo G, et al. Gene Regulatory Network Inference in the Presence of Dropouts: a Causal View. arXiv preprint arXiv:2403.15500, 2024.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 image.png 

 



https://blog.sciencenet.cn/blog-571917-1436992.html

上一篇:IGAN:使用空间偶联基因程序揭示细胞间通讯通路
下一篇:MicroRNA测序数据的统计建模
收藏 IP: 112.116.155.*| 热度|

2 宁利中 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-18 20:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部