||
scGeneRAI:可解释人工智能的单细胞基因调控网络预测
在与癌症的斗争中,治疗决策越来越依赖于肿瘤的分子特征,而癌症组织的分子谱分析正成为常规诊断的一个组成部分。尽管如此,在许多情况下,治疗结果只能根据分子特性进行预测,这表明当前标记物与其对肿瘤发生或治疗耐药性的功能含义之间存在差异。从转录组学分析推断的基因调控网络(GRN)的研究旨在揭示癌症基因组学的这些功能方面。已经开发了许多从基因表达谱推断网络信息的方法,但这些方法大多推断出肿瘤样本队列的平均基因调控网络。因此受到限制,因为它们不能用于识别患者特异性差异。因此,为了推断个体患者的基因调控网络,这些方法需要来自同一患者的多个样本。由于单细胞RNA测序方法的发展,这已经成为可能,该方法可以提供同一病人的数千个转录组样本。虽然这些方法有助于更好地了解患者癌症的主要致癌机制,但它们不能用于分析肿瘤内基因调控的异质性。
这种限制是这些方法的一个严重缺点,因为由于进化压力,只有少数肿瘤细胞克隆对(靶向)治疗产生耐药性,可能导致有限的反应和治疗耐药性的发展。因此,将这些“治疗差距”降至最低具有临床意义。因此,需要能够推断单细胞GRN的方法。
在这里,Keyl等人引入scGeneRAI(图1)方法,该方法采用可解释的人工智能方法:分层相关传播(LRP),从单细胞RNA测序数据推断单个细胞的基因调控网络。
图1 用XAI重建scGeneRAI合成单细胞网络。(A) scGeneRAI推断单细胞GRN的工作流程。神经网络在scRNA-seq数据上进行训练,以基于任意一组其他基因来预测每个基因的表达。在训练之后,单细胞GRN的预测分为三个步骤:(1)基于一组其他基因来预测目标基因。(2) LRP用于推断该预测中每个基因的相关性。(3) LRP得分随后作为衡量目标基因与所有预测基因之间相互作用强度的指标。此过程重复100个掩模,所有基因作为靶基因。(B)直线框架提供的三种不同网络的Ground truth。scGeneRAI或LIONESS在评估网络重构性能时忽略自环。(C)单细胞网络预测的ROC曲线下面积(Area under the ROC curve, AUC)值比较。给定一个合成的scRNA-seq数据集,其中每个单细胞转录组由三种不同网络中的一种生成,scGeneRAI必须对每个细胞的底层网络进行逆向工程。重建性能以每个细胞的AUC来衡量。因此,使用scGeneRAI或LIONESS方法,每个小提琴图都可以可视化4500(训练集的大小)单个细胞重建的AUC分数。scGeneRAI能够预测单个细胞的网络拓扑结构,并且显著优于LIONESS方法
为了预测单细胞基因调控网络,scGeneRAI训练了一个深度神经网络,根据任意一组其他基因来预测一个基因的丰度。随后,LRP被用于估计每个基因的相关性。这扩展了可解释的人工智能方法,从大量蛋白质组学分析数据中预测个体患者的蛋白质网络。在此进一步开发了scRNA-seq数据分析方法,由于每个细胞的转录本计数通常很少,并且经常出现缺失,因此提出了额外的挑战,并检查了其在合成数据上的性能。
细胞特异性预测是由全局ML模型支持的,这与局部统计分析,得到所有数据点的支持,可以更好地处理由于存在群体中罕见的具有独特分子性质的细胞而导致的采样异质性。具体来说,scGeneRAI反映了全局结构,并且可以捕获更强大的复杂全局相关性,这是生物网络固有的。
利用10名非小细胞肺癌患者的单细胞测序数据,scGeneRAI预测了超过15000个单个正常细胞和肺癌细胞的基因调控网络。报告了已知的以及新的网络结构,其中一些是在肿瘤中观察到的,而另一些是特定于某些患者和肿瘤细胞亚克隆的。
scGeneRAI方法使用R和Python混合编程,详细参见https://github.com/PhGK/scGRN。
参考文献
[1] Keyl P, Bischoff P, Dernbach G, Bockmayr M, Fritz R, Horst D, Blüthgen N, Montavon G, Müller KR, Klauschen F. Single-cell gene regulatory network prediction by explainable AI. Nucleic Acids Res. 2023 Feb 28;51(4):e20. doi: 10.1093/nar/gkac1212.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 17:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社