zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

基因调控网络中的因果关系推理探讨

已有 1524 次阅读 2023-9-29 23:18 |个人分类:科普|系统分类:科普集锦

基因调控网络中的因果关系推理探讨 

人体由各种各样的细胞组成,这些细胞共同发挥维持生命所必需的各种功能。生物学的一个长期目标是了解细胞行为和维持的复杂性,这些行为和维持是这种功能多样性的基础。单个细胞通常被认为是最基本的生命单位,在人体的几乎所有部位都共享相同的遗传物质。这种遗传物质在不同的细胞类型和相应的生物学功能中表现出来的方式仍然是一个大量研究的主题。细胞类型的多样性主要不是遗传学的副产品,而是由细胞内许多生物分子的协调驱动的,这些生物分子决定了基因组的表达方式。这些基因表达模式在细胞类型之间差异很大,并提供了一个透镜,通过它可以分析细胞身份。因此,分析细胞中的基因表达模式是揭示细胞承担不同功能的因果机制的关键。 

单细胞测序技术的最新进展使基因表达的测量达到了前所未有的分辨率和规模。重要的是,这些单细胞技术描述了单个细胞的基因表达模式,而不是像传统的批量测序那样平均整个细胞群体的信息。这些细胞水平测量的一个关键优势是能够辨别细胞异质性的细微模式,包括微妙的细胞类型差异和状态转换,这些在以前的批量设置中是模糊不清的。单细胞数据的这个独特特征为许多新颖的见解和创新打开了大门,包括罕见细胞类型的发现、动态生物过程的轨迹推断和基因调控网络的重建。因此,单细胞数据在确定细胞类型识别和功能的关键驱动因素以及构成人类健康和疾病基础的机制方面具有巨大潜力。 

然而,对单细胞数据的分析也提出了一些挑战。首先,单细胞数据往往是高度稀疏和噪声的,这可能会阻碍有意义的生物信号。对于单细胞RNA-seq (scRNA-seq),技术因素包括扩增偏倚、细胞周期效应、文库大小差异和低RNA捕获率。生物因素,包括细胞类型特异性表达率的差异,也可能导致这种稀疏性。此外,单细胞数据的细胞水平分辨率和在这些数据集中表示的观察数量的增加提出了关于最有效的方法来表示这些数据以提取有价值的生物学见解的问题。综上所述,这些因素需要开发新的实验和计算方法,以有效地利用单细胞数据的独特属性。更广泛地说,发现细胞功能背后的因果关系一直是生物学的核心目标,从单细胞数据中揭示这些因果关系的努力可以极大地促进我们对关键生物学机制的理解。 

在《Towards causality in gene regulatory network inference》博士论文中,作者介绍了一系列从单细胞数据中揭示基因调控关系的方法,以期推断分化和疾病的因果机制。首先,在第2章中,提出了一个框架,用于使用基于一般统计关联的方法从观察数据中推断出细胞类型特异性基因调控关系。特别是,描述了一种名为ShareNet的贝叶斯方法,用于自适应地在相关细胞类型之间共享基因调控信息,以提高基因调控网络的准确性。从ShareNet推断的细胞类型特异性网络揭示了基因关联的关键变化,这些变化支撑了跨细胞类型、组织和动态生物过程的复杂的调节网络重新布线。 

在第3章中,描述了使用遗传扰动筛选来剖析关键基因调控因子的功能角色。重点研究了Perturb-seq的使用,它将scRNA-seq与基于聚类规则间隔短回文重复序列(CRISPR)的扰动相结合。通过将单细胞基因表达读数与靶向CRISPR干预相结合,Perturb-seq能够以前所未有的规模发现因果关系。在本文中,作者使用Perturb-seq对哺乳动物SWI/SNF (mSWI/SNF)家族染色质重塑复合物的功能特性进行了全面的研究。研究了靶向mSWI/SNF亚基的CRISPR/Cas9敲除单独和选择组合的影响,揭示了不同调控网络中复杂、模块和亚基特异性的因果作用。此外,发现了平行亚基关系和移位的亚复函数在扰动以及功能冗余和遗传相互作用的模块化。此外,将从Perturb-seq中获得的因果扰动特征映射到原发人类肿瘤表达谱,从而能够预测癌症中的mSWI/SNF功能丧失特征。 

为了弥合依赖于观测单细胞数据的基于统计关联的方法与由Perturb-seq实现的基于干预的因果方法之间的差距,在第4章中引入了一类新的算法,旨在从观测数据中识别因果关系。作者描述了计量经济学格兰杰因果关系概念的扩展,它传统上仅限于时间序列数据等观测的顺序排序。作者制定了一个基于图形神经网络的格兰杰因果关系泛化,它兼容并利用了基于图形的动力系统的结构,例如在单细胞轨迹中常见的结构。具体来说,该框架利用单细胞数据集捕捉动态生物过程中细胞状态快照的能力,为触发下游效应的因果因素提供有价值的见解。应用这个框架从单细胞多模态数据中发现因果非编码位点-基因链接。这些调控联系的特征是所谓的细胞状态视差,或者由于它们的因果关系,表观遗传和转录组模式之间的时间差异。应用基于图表的格兰杰因果框架(GrID-Net)来解释非编码基因组,并将遗传变异与疾病中失调的基因联系起来,主要关注于研究精神分裂症的病因学。 

在第5章中,基于图的格兰杰因果推理的基础上,提出了一种利用单细胞剪接动力学进行因果基因调控网络推理的新方法。这种名为Velorama的方法解释了重要的协同调节关系,这些关系表现出组合效应,还可以量化因果调节基因与其下游靶基因之间的时间延迟。杰作表明,Velorama整合RNA速度动力学的能力使其大大优于现有的最先进的基因调控网络推断方法。利用Velorama,还新发现了转录因子的速度、它们的调节功能以及它们与特定疾病的相关性之间的相互作用。 

最后,在第6章中,作者展望了单细胞基因组学的交叉,从单细胞数据中提取因果机制见解的方法进展,以及本文所提出的工作的意义。最后讨论了在单细胞基因调控网络推理中走向因果关系的未来方向和机会。 

有关基因之间的因果推理论文(图1)详细内容参见文献[1]。相关下载链接可以通过百度网盘链接下载: https://pan.baidu.com/s/1KL3ElPzfoHDRmduJoT4BXA?pwd=48ec,提取码: 48ec 

image.png  

1 基因因果网络推理相关博士论文 

参考文献

[1] Wu A P Y. Towards causality in gene regulatory network inference[D]. Massachusetts Institute of Technology, 2023. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

image.png




https://blog.sciencenet.cn/blog-571917-1404256.html

上一篇:分子网络分析的因果发现方法综述
下一篇:通过交叉映射熵推断单细胞因果网络
收藏 IP: 39.128.55.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 06:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部