||
深度学习预测细胞特异性基因表达谱和敲除影响
基因表达谱是细胞表型和功能的关键决定因素,提供对其编码的蛋白质的活性和生物学意义的基本见解。从基因表达数据中,有助于揭示疾病的原因和后果,例如对不同类型的癌症进行分类,预测疾病复发,评估各种癌症治疗会影响癌症、细胞对疾病的反应和药物治疗。细胞对遗传扰动的转录反应为细胞提供了重要的见解功能。这些反应阐明了基因调控网络如何维持细胞身份和改变基因表达如何逆转疾病表型。这种理解有助于生物医学研究和个性化疗法的开发。例如,使用验证药物靶点的遗传扰动已被证明可以增加临床的可能性试验成功。此外,识别协同基因对可以提高联合疗法。
尽管最近的进展加速了基因扰动的实验分析,但可能的多基因组合的绝对数量使得详尽的测试不可行。因此,可以预测扰动结果的计算模型,例如基因敲除 (KO) 实验对于指导实验工作并确定其优先级至关重要。为此,已经开发了几种计算机 KO 工具。例如,基于基因表达方法可以预测 KO 效应,尽管有些方法需要野生型 (WT) 和 KO 用于训练的样本。基于网络的方法,例如scTenifoldKnk 和 GenKI,构建单细胞基因调控网络(GRN)并通过以下方式鉴定响应基因,比较 KO 扰动前后的网络结构。然而,基于网络的方法不估计细胞类型特异性和细胞特异性扰动结果,并且其他基于基因表达的方法通常需要扰动数据,其性能受限。许多基因在细胞中仍未表达,细胞中表达的一组基因反映了其潜在的调控状态,包括活性转录因子、信号通路和染色质可及性。这种组合限制了表达格局,能够基于关键调控基因和共表达基因的存在或缺失来准确预测基因表达水平。
最近,He等人提出了一个数据驱动的框架DKO(图1)来预测基因表达谱和单细胞分辨率下对基因 KO 的转录反应,不需要推断基因间调控相互作用的整个图谱和用于模型训练的扰动数据。该框架采用深度学习模型来学习基因组合之间的映射以及仅基于天然 scRNA-seq 数据的基因表达谱,从而实现准确预测任何细胞类型中对基因 KO 的转录组反应并鉴定高影响基因。使用模拟基因调控网络系统地验证了该框架,其中基因相互作用和扰动效应的基本事实是已知的。该数据驱动型敲除(DKO)框架能够准确预测细胞特异性基因表达谱。DKO预测的每个细胞和细胞类型的敲除影响与GRN推导的真实影响高度相关。然后,将其应用于分析两个具有敲除实验的体内单细胞数据集,发现DKO在鼠数据集中预测的单基因敲除下最响应的基因也已在文献中报道。将DKO应用于来自K562和RPE1细胞的体外大规模CRISPRi-based Perturb-seq数据集,该数据集涵盖了单细胞分辨率的数千次同时基因扰动。发现DKO可以实现高度准确的预测,表明其在真实生物系统中泛化扰动的能力。
图1 DKO框架的工作流程。a,给定来自特定细胞类型的一组细胞的基因表达谱,通过比较其敲除的影响来确定一个基因是否是高影响基因(关键基因),例如,敲除后的新表达谱与敲除前的原始表达谱之间的差异。b,单细胞样本s的基因组合/集合由二进制载体z表示。细胞的基因表达谱以载体 p 为特征。c,通过从基因组合中去除一个基因来进行KO思想,以获得新的组合。然后,对于新的基因组合,使用 MLP 来预测其新的基因表达谱。该基因在该细胞中的 KO 影响是通过原始基因表达谱 p 和新基因表达谱 p’ 之间的距离来测量的
参考文献
[1] He Y, Klein V, Levy O, et al. Predicting cell-specific gene expression profile and knockout impact through deep learning. arXiv preprint arXiv:2510.03359, 2025. https://doi.org/10.48550/arXiv.2510.03359
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 18:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社