||
3CA:肿瘤细胞图谱数据库
肿瘤是一个复杂的生态系统,它由不同的细胞类型、基因克隆和动态细胞状态组成。这种肿瘤内异质性(ITH)是肿瘤发展的核心,也是癌症治疗的主要障碍,此外耐药肿瘤亚群驱动疾病持续进展。单细胞RNA-seq(scRNA-seq)最近成为研究ITH的有力工具,为更全面地了解癌症进展和治疗效果铺平了道路。将scRNA-seq应用于患者肿瘤样本的早期研究发现,例如,在少突胶质瘤中发现了干细胞/祖细胞状态,在头颈癌中发现了部分上皮-间充质转化状态,在胰腺癌中发现了抗原呈递的癌症相关成纤维细胞群。这些发现只有在scRNA-seq的高分辨率和全基因组覆盖下才有可能实现。
肿瘤scRNA-seq数据的生成已经大大加快。总的来说,全球癌症研究界产生了大量高分辨率的肿瘤转录组图谱,这些图谱有可能改变我们对癌症的理解,并推动新的治疗策略的发展。这些数据集最终可以定义一个基础资源,取代广泛使用的bulk队列,如癌症基因组图谱(TCGA)。然而,由于成本和各种技术限制,单个scRNA-seq研究只能分析相对较少的肿瘤样本,通常在5到20之间。因此,每个数据集都严重不足,无法识别稳健且具有临床意义的表达模式。同时,批处理效应和方法、格式和注释的不一致阻碍了数据比较的能力。
最近,Tyler等人通过整理大量已发表的scRNA-seq数据集进行组合分析来解决这些问题。作者们之前在一项泛癌症scRNA-seq研究中发表了71个这样的数据集,表征了转录ITH的复发性程序。现在已经大大扩展了这个队列,达到124个数据集,2,822个样本和超过550万个单细胞,从而能够更深入地探索ITH。使用这个扩展数据来系统地识别上下文依赖的基因表达谱,表征细胞类型标记和识别在各种情况下区分恶性细胞的基因。此外,提出了细胞周期的全面量化,揭示了不同细胞类型和癌症类型的增殖率的高度可变性,并揭示了与驱动突变(最明显的是TP53)相关的细胞周期阶段的偏差。这些数据、分析和探索工具共同构成了“肿瘤细胞图谱”(图1,Curated Cancer Cell Atlas, 3CA,https://www.weizmann.ac.il/sites/3CA/),并可在单细胞分辨率上全面表征肿瘤。
图1 3CA数据库
3CA汇集了来自整个癌症研究界的许多单个scRNA-seq成果,以释放它们的综合潜力。精心整理的数据的数量和种类,以及其网站的可用性,赋予了scRNA-seq一定程度的可访问性和统计能力,这在以前的癌症研究中是缺乏的。这一数据资源对于许多研究小组的各种任务将是非常有价值的,例如:(i)搜索和下载最适合特定问题的单个数据集;(ii)研究不同细胞类型和癌症类型中相关基因的表达模式;(iii)研究已知基因特征在新环境中的表达,并测试其稳健性和通用性;(iv)进行各种泛癌分析,揭示疾病之间的关系;(5)微调统计模型和算法。3CA填补了所有癌症研究人员scRNA-seq数据中心来源的角色,他们可能反过来提供新的数据集来进一步丰富这一资源。
虽然其他研究提出了处理过的scRNA-seq数据库,但这些数据库要么大小有限,缺乏癌症焦点,要么集中在肿瘤微环境因素(如免疫细胞)周围。3CA优先考虑恶性细胞,并包含广泛的数据可视化和分析,详细说明了癌症类型内部和之间的多样性。3CA还包括仔细管理肿瘤临床注释,这些注释在单个scRNA-seq数据集中通常是稀疏的。随着3CA的不断发展,这些临床注释将通过揭示与临床结果相关的单细胞表达模式来丰富未来的研究工作。
在3CA数据集的处理和分析中,避免使用scANVI、Harmony和Seurat提供的数据集成方法。这些方法试图通过某些假设来消除scRNA-seq数据中的批效应,但目前还没有广泛同意的标准,它们可能会去除一些真正的生物信号。在癌症的背景下尤其如此,肿瘤样本之间的转录差异大部分来自其独特的遗传和表观遗传谱,而不是批次效应。重要的是,3CA分析要么集中在肿瘤内的异质性上,在基因特征水平而不是表达水平上比较样本之间的异质性,要么只报告了许多样本的平均值。3CA中的高样本量允许对这些平均值有信心,并且随着包含更多数据集,它们的准确性将进一步提高。然而,这种规模的完全整合的scRNA-seq数据资源将有明显的优势,其中可以直接比较任意两个样本之间的表达水平。在保留生物信号的同时,建立整合3CA数据的最佳方法需要进一步的研究。
3CA的进一步扩展至少在三个方面。首先,测序工作的规模越来越大,单个研究测序超过50个样本。包括更多这样的研究将显著提高3CA的统计能力。其次,新的研究包括目前在3CA中代表性不足的癌症类型,以及罕见的样本类型,如治疗后肿瘤、转移性病变和循环肿瘤细胞(CTC)。第三,冷冻肿瘤样本的单核RNA测序正在迅速普及,也存在固定组织分析的方法。这些技术通过解除对新鲜组织测序的限制,开辟了许多新的可能性,因此3CA在未来几年将大幅增长和多样化。
参考文献
[1] Michael Tyler, Avishai Gavish, Chaya Barbolin, Roi Tschernichovsky, Rouven Hoefflin, Michael Mints, Sidharth V. Puram, Itay Tirosh. The Curated Cancer Cell Atlas: comprehensive characterisation of tumours at single-cell resolution. bioRxiv, 2024.10.11.617836; doi: https://doi.org/10.1101/2024.10.11.617836
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社