||
scPER:基于总RNA测序与癌症表型一致的肿瘤细胞亚型确定
肿瘤是由恶性细胞和多种不同细胞类型组成的复杂生态系统,其中存在各种相互作用可以发生。肿瘤微环境(TME)由多种免疫细胞和基质细胞组成,对肿瘤的生长和进展有显著影响。了解肿瘤微环境的组成对于开发新型癌症疗法以及临床实践中的治疗决策具有重要价值。特别是,了解浸润肿瘤的免疫细胞可以揭示肿瘤如何对免疫系统做出反应。研究表明,患者肿瘤内免疫细胞的空间位置和数量可以预测标准疗法的治疗效果。同样,肿瘤部位存在某些 T 细胞亚群已被证明与抗 PD1、抗 PDL1 和抗 CTLA4 等免疫检查点抑制剂免疫疗法的有效性相关。因此,认为肿瘤内患者特异性的免疫细胞组成可能是预测免疫治疗反应的关键因素。这些信息可用于临床试验中的患者分层,并预测针对特定免疫细胞类型的治疗方案,以提高成功率并加速获得更有效的治疗方案。流式细胞术(FACS)和免疫组化都是用于定量样本中免疫细胞含量的高度受重视的技术。然而,它们通常都依赖于预先选定的少量标记基因组合,这限制了可以同时定量的细胞类型数量。最近,单细胞 RNA 测序(scRNA-seq)技术通过分析数千个单个细胞的转录组图谱,彻底改变了生物医学研究,使研究人员能够描述细胞类型和状态。然而,其在临床环境中的实施仍然成本高昂且工作量大,使得常规使用不可行。此外,大多数临床样本无法解离成单个细胞进行 scRNA-seq 分析,而单细胞解离效率的变化会导致 scRNA-seq 数据中细胞类型比例的量化产生偏差。 此外,现有的 scRNA-seq 技术无法将细胞群体与肿瘤的临床表型相关联,而肿瘤的临床表型主要来自组织样本,特别是石蜡包埋样本,这些样本与单细胞分析不兼容。
最近,已有多种计算方法被描述用于估计肿瘤中的细胞亚群。这些方法中的大多数使用源自 FACS 纯化的细胞亚群的细胞类型特异性标记基因,或通过去卷积方法推断的基因表达谱(GEP)来估计批量样本中的细胞比例。最近的研究表明,在用于解析混合细胞群体的多数方法中,GEP 的设计是一个关键方面,因为使用相同 GEP 的不同方法可以获得可比的结果。理想情况下,最优 GEP 中包含的特征基因应高度特异性地针对复杂群体中的单个细胞群体,它们应在不同条件下保持稳定性,例如在健康和疾病状态下,并应具有对数据中的噪声或偏倚的鲁棒性。然而,由于生物医学数据中固有的偏倚,例如在不同组织、个体、物种和数据采集方法之间的差异,通常很难在细胞类型去卷积中实现最优性能。 此外,基于 GEP 的解卷积方法在区分细胞亚型及准确估计其比例方面遇到了困难。相比之下,已有多种基于深度学习的方法被描述,通过自动从模拟的 scRNA-seq 数据中提取特征来估计细胞比例,而不是依赖于预定义的 GEP。然而,这些策略通常集中于单个 scRNA-seq 数据,以揭示特定于所报告细胞类型的特征。尽管如此,单个数据集往往缺乏所有所需细胞类型的代表性,并且某些组织的 scRNA-seq 数据可能无法获取,因此解卷积方法需要具备整合多个 scRNA-seq 数据集和进行跨组织预测的能力。然而,由多个 scRNA-seq 研究汇编的参考数据可能带有批处理和平台效应,这会降低在外部批量数据上的准确性。MuSiC 和 SCDC 等方法通常假设所有目标细胞类型都存在于每个参考数据集中,但在肿瘤微环境图谱中这种情况往往不成立,且组织内调优可能会在没有匹配的单细胞图谱时限制跨组织的泛化能力。此外大多数框架并未设计为将解卷积比例与临床终点连接起来,或在一个流程中发现与表型相关的亚群,而深度学习方法在没有明确混杂因素控制的情况下可能会过拟合。
为解决上述挑战,Li等人提出了一种基于单细胞 RNA 测序参考(scPER,图1,https://github.com/BrianLlll/scPER)估计细胞比例并识别表型相关亚群的新方法。该方法包含两个组成部分:一个对抗性去混淆自编码器模型,该模型从真实信号中分离混杂因素,并生成来自不同研究和组织的 scRNA-seq 数据集的生物信息嵌入;以及一个极端梯度提升(XGBoost)回归模型,该模型估计嵌入细胞类型在批量样本中的比例。基于 scPER 估计的细胞比例,进一步识别了与临床表型(如免疫治疗反应)相关的生物信息细胞亚群。结果证明,scPER 估计的细胞比例可以用于以高精度预测患者的免疫治疗反应,从而在临床环境中实现患者分层。

图1 scPER 概述及各阶段功能。阶段 1. 参考整合与预处理。将来自多个研究或组织的 scRNA-seq 数据集整合形成参考矩阵 R(行=基因,列=细胞)。经过质控和特征选择后,应用去噪和插补以稳定跨数据集的基因信号。输出:预处理后的单细胞表达 R,包含细胞类型标签和混杂因素标签(研究/平台/组织)。阶段 2. 混杂因素感知表征学习。对抗自编码器从 R 中学习低维潜在空间 Z。编码器 E 将表达 x 映射到 z;解码器 D 从 z 重建 x。V 试图从 z 预测指定混杂因素 c(例如研究/平台/组织)。训练最小化重建损失,同时隐式最大化对手损失(权重𝜆),从而生成 Z,该空间保留生物学信息但减少干扰变异。输出:细胞嵌入 Z 和用于嵌入新数据的训练编码器 E。阶段 3. 批量嵌入与比例估计。 批量 RNA 测序样本 T 与单细胞数据一样进行标准化处理,并通过训练好的编码器 E 转换到相同的潜在空间以获得批量嵌入。使用 XGBoost 回归器在单细胞参考的潜在特征上训练模型,以预测每个批量样本的细胞类型组成 P(列=样本,行=细胞类型)。输出:所有批量样本中估计的细胞类型比例 P。阶段 4.下游生物学和临床关联。估计的组成 P 支持下游分析:(i)识别调节细胞比例的关键基因,(ii)测试临床终点如生存率或免疫治疗反应,以及(iii)识别细胞类型或亚群中与表型相关的变化。R=参考单细胞矩阵;T=批量表达;Z=scPER 潜在嵌入;P=估计的细胞类型比例;𝜆=对抗权重;c=混杂标签。箭头指示从参考构建到嵌入、解卷积和表型分析的数据流
参考文献
[1] B. Li, X. Zhou, and R. Kalluri, “ scPER: A Rigorous Computational Approach to Determine Cellular Subtypes in Tumors Aligned With Cancer Phenotypes From Total RNA Sequencing.” Adv. Sci. (2025): e14502. https://doi.org/10.1002/advs.202514502
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-31 00:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社