||
Marlene:重构单细胞数据时变网络
生物系统是动态的,并且随着时间变化以响应各种刺激和事件。为了在发育、疾病进展、治疗反应和其他生物过程中构建准确的生物活性模型,有必要跟踪它们随时间的演变。研究这些动态过程的调控是理解驱动反应的潜在机制和确定可作为疾病治疗手段的潜在干预措施的关键。
这一领域的大部分研究都集中在调控网络的重建上。这些网络包括一个被称为转录因子(TF)的蛋白质子集,它调控细胞内所有其他基因和蛋白质的活性。然而,这些基因调控网络(GRN)并不是静态的。相反,活跃节点(蛋白质)和边(基因)都会随着时间而改变。为了重构这样的网络,研究人员经常将静态数据(如网络中节点的类型)与动态数据(如节点活动的时间序列测量(基因表达谱))结合起来。该领域的早期工作采用了微阵列和ChIP-chip芯片数据,随后是下一代RNA-seq时间序列数据,以及最近的单细胞RNA-seq (scRNA-seq)数据。
在过去的二十年中,已经提出了几种计算方法来重建这种动态GRN。其中一些方法利用时变图形模型,包括隐马尔可夫模型、马尔可夫随机场和动态贝叶斯网络。其他方法尝试使用回归或使用图形Lasso算法的扩展来学习时间精度矩阵。
虽然这些模型成功地重建了一些过程,但它们不太适合较新的数据类型,最明显的是scRNA-seq时间序列数据。首先,大数据量对传统的图形模型提出了挑战。此外,先前的方法不能直接解释在每个时间点对多个细胞进行分析的事实。最后,之前的方法没有利用学习更大模型的能力,如神经网络,这些模型已被证明可以改善许多其他学习任务。最近,已经提出了一些使用深度学习来恢复静态GRN的方法。然而,它们不能直接用于捕获动态GRN(即在时间点之间强制学习)。最近的两种方法,Dictys和CellOracle 可用于推断动态GRN.然而,这些方法依赖于不同类型数据(ATAC-seq),这些不同类型数据通常难以获得且不太普遍。
在生物学领域之外,使用神经网络的动态图推理已经引起了极大的关注。这个问题已经在不同的领域得到了应用,包括信息检索、分子图和流量预测。虽然这些问题与动态GRN问题有相似之处,但也存在显著差异,这使得这些方法难以扩展到时间序列scRNA-seq。时间图的推断问题通常通过恢复一系列图邻接矩阵。 然而,在处理scRNA-seq数据时,问题就变成了:给定一个基因表达矩阵,我们感兴趣的是恢复基因网络,即特征图,而不是节点(细胞)。
最近,Hasanaj等人提出了一种新的深度学习框架,该框架有效地解决了上述重建动态GRN的挑战。首先,作者们证明了现有的用于时序图结构学习的深度学习方法可以适用于scRNA-seq数据分析。为了实现这一点,通过利用类集架构(如DeepSets或Set Transformers)执行基因特征步骤。其次,通过对这些基因特征向量应用自注意机制构建动态图。为了模拟动力学,从EvolveGCN中获得灵感,其中门控循环单元(GRU)进化图神经网络的权重。然而,与EvolveGCN不同的是,使用GRU来进化自关注模块中的键和值投影矩阵的权重。这允许构建动态图形,以捕获随时间变化的调控关系。最后,GRN高度依赖于细胞功能,因此,需要为每种细胞类型学习单独的GRN。单个scRNA-seq数据集可以组合多种类型的细胞,其中一些是罕见的细胞群。为此,采用了一种与模型无关的元学习(MAML)训练程序,将每种细胞类型视为待学习的“任务”。使用这种方法,模型可以快速适应样本较少的任务,即使对于罕见的细胞类型也可以重建动态图。
该深度学习框架应用于推断三个scRNA-seq数据集的时间基因调控网络(Marlene,图1)。第一个是人外周血单核细胞(PBMC)SARS-CoV-2 mRNA疫苗接种时间序列数据集。第二个数据集是来自人类细胞图谱项目。第三个数据集来自使用小鼠肺损伤模型的肺纤维化研究。所有三个数据集都包含几个时间点,从而能够通过动态的、细胞类型特异性GRN的推断对相关生物反应进行纵向分析。结果显示:Marlene能够为这些数据集重建准确的网络,大大改进了先前提出的方法。
图1 Marlene概述。Marlene以细胞-基因矩阵的形式将基因表达数据作为输入。然后通过多头注意池化(PMA)机制进行基因特征化,该机制返回一个基因特征矩阵。然后将该矩阵输入到自注意模块中,得到邻接矩阵形式的基因网络。自注意模块的权重通过一个门控循环单元(GRU)从一个时间点进化到下一个时间点。利用转录因子的表达和恢复图重建完整的基因表达载体。最后,利用重构矩阵预测该批的细胞类型。该网络以一种与模型无关的元学习方式进行训练,其中每种细胞类型都被视为待学习的“任务”,从而使模型能够快速适应具有低代表性的细胞类型
在所有三个数据集中,Marlene成功地从TRRUST和RegNetwork数据库中识别出许多经过验证的TF-基因关系,这些关系跨越各种细胞类型。它还准确地模拟了这些关系的时间动态。一些先前的方法忽略了时间方面,导致连续时间网络之间的相似性很小。其他方法将所有时间点整合在一起,导致每个时间点的网络非常相似。相比之下,Marlene准确地恢复了变异动力学,其特征通常是在治疗后强烈的重新连接,后来稳定下来。 此外,Marlene还指出了许多相关的优势。例如,在肺老化数据中,一些与年龄相关的疾病(如关节炎)的动态边被充实。同时,在SARS-CoV-2数据中,这些动态连接在免疫应答过程中得到了丰富。先前的方法捕获了一些已知的边,然而,总体结果不太显著。通过提供更好的模型来解释疾病和疫苗反应,研究人员可以放大特定的靶向机制,从而可以找到更好的治疗方法。
Marlene在研究中使用的数据集,虽然是典型的scRNA-seq时间序列,但只有几个时间点。对于较长的序列,GRU操作可能会遇到梯度消失问题。在这种情况下,S4模块可能是首选,因为它已被证明比传统GRU更好地模拟长序列。此外,使用大量的基因进行训练,由于需要存储邻接矩阵,导致内存消耗呈二次增长。这导致对每一组基因进行了限制。更有效的实施或替代方法,如FlashAttention 可以更好地利用所有基因谱。
参考文献
[1] Euxhen Hasanaj, Barnabás Póczos, Ziv Bar-Joseph. Recovering Time-Varying Networks From Single-Cell Data. arXiv. https://arxiv.org/abs/2410.01853.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社