zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

单细胞分辨率下细胞通讯比较分析

已有 2096 次阅读 2023-7-7 07:22 |个人分类:科普|系统分类:科普集锦

单细胞分辨率下细胞通讯比较分析 

复杂的多细胞生物依赖于其组织生态位内部和之间的协调来维持体内平衡,并对内部和外部的扰动做出适当的反应。这种协调是通过细胞-细胞通讯(cell–cell communicationCCC)实现的,细胞通过这种通讯发送和接收影响细胞表型和功能的生化和物理信号。系统生物学的一个基本目标是了解使组织以协调和灵活的方式运作以维持健康和对抗疾病的通讯途径。 

单细胞RNA测序(scRNA-seq)的出现,使得在单细胞的原子分辨率上应用基因组学的综合特性,解剖复杂的多细胞生态位成为可能。与此同时,蛋白质-蛋白质相互作用数据库的组装和遗传扰动筛选的兴起使得从scRNA-seq数据集推断细胞间通信的给定坐标轴方法得以发展。这些技术通常通过聚集细胞群的配体和受体表达值来推断哪些细胞群可能相互作用。然而,在生物学上,CCC并不在群体层面上运作。相反,这种相互作用发生在单个细胞之间。我们需要一种CCC推理方法来分析单细胞水平上的相互作用,通过观察上游和下游细胞活动来利用scRNA-seq数据中包含的全部信息内容,从而能够在不同条件下进行比较分析,并且对多个实验设计具有鲁棒性。 

本次介绍了一种适应性强、计算能力强的单细胞分辨相互作用分析的CCC分析方法Scriabin(图1)。Scriabin通过结合整理的配体-受体相互作用数据库、下游细胞内信号模型、基于锚定的数据集整合和基因网络分析,在单细胞分辨率上剖析复杂的通讯途径,以恢复具有生物学意义的CCC通讯关系。 

Scriabin的目标是开发一种可扩展和统计稳健的方法,用于从scRNA-seq数据中全面分析CCCScriabin根据数据集大小和分析目标实现了三个独立的工作流(1https://github.com/BlishLab/scriabin):(1)细胞-细胞交互矩阵(CCIM)工作流,最适合较小的数据集,分析数据集中每个细胞-细胞对的通信;(2)为大规模对比分析而设计的总结交互图工作流,识别了样本之间具有不同总交流电位的细胞-细胞对;(3)适用于任何数据集大小的交互程序发现工作流,查找共表达配体-受体对的模块。 

CCC的基本单位是一个表达配体的发送细胞Ni,这些配体被它们的同源受体接收,这些受体由接收细胞Nj表达。Scriabin通过计算数据集中每对细胞对每个配体-受体对的表达的几何平均值,在CCIM M中对这些信息进行编码(1a)Scriabin目前支持使用15种不同的蛋白质-蛋白质相互作用数据库来定义潜在的配体-受体相互作用,默认使用OmniPath数据库,因为该数据库包含对每种潜在相互作用的基因类别、机制和文献支持的强大注释。由于配体-受体相互作用是定向的,Scriabin将每个细胞分别视为发送者”(配体表达)接收者”(受体表达),从而保持了CCC网络的定向性质。M可以类似于基因表达矩阵,用于降维、聚类和差异分析。 

接下来,Scriabin识别生物学上有意义的边,将其定义为预计会影响接收细胞中观察到的基因表达谱的配体-受体对(1)。这需要为每个细胞定义反映其相对基因表达模式的基因标记,并确定哪些配体最有可能驱动观察到的标记。首先,确定可变基因,立即将分析重点放在区分相关或显著动态样本的特征上。在分析单个数据集时,这组基因可能是数据集中最易变的基因,这可能反映细胞类型特异性或状态特异性的基因表达模式。或者,当分析多个数据集时,可以使用在不同条件(或时间点)之间变化最大的基因。为了定义选定的可变基因与每个细胞之间的关系,单个细胞和选定的可变基因被放置在一个共享的低维空间中,使用多重对应分析(MCA),这是一种适用于计数数据的主成分分析(PCA)的加权泛化,由Cell-ID实现。细胞的基因标记被定义为最接近MCA嵌入中的可变基因的一组基因。然后使用NicheNet来指定最有可能导致每个细胞观察到的基因标记的配体。从这一过程中恢复的配体-受体对用于按比例对CCIM M进行加权,以预测其活性,突出显示最重要的生物学相互作用(1) 

由于M的一维长度为N × N个细胞,因此对于细胞数较多的样本构建M是不切实际的;随着scRNA-seq平台的吞吐量不断增加,这个问题可能会加剧。从概念上讲,这个问题的解决方案包括子抽样和聚合。然而,次抽样在统计上是不可接受的,因为它涉及遗漏可用的有效数据和采样噪声。同时,任何水平上的聚集都有可能模糊重要的异质性和/或特异性。 

另一种解决方案是首先智能地识别感兴趣的细胞-细胞对,然后仅使用这些发送者和接收者单元构建M。我们假设,在比较分析的背景下,在相互作用的幅度上发生实质性变化的发送-接收细胞对是最具生物学信息性的。为了识别这些细胞,Scriabin首先构建了一个汇总的相互作用图S,其特征是一个N × N矩阵,其中包含每对细胞的所有同源配体-受体对表达分数的总和。S在生成、存储和分析完整数据集M方面的计算效率要高得多(对于1,000个单元的数据集,S1,000 × 1,000,而M~3,000 × 1,000,000)。比较来自多个样本的汇总交互图需要来自不同样本的细胞共享一组代表相同身份的细胞标签或注释。Scriabin利用数据集集成方法的最新进展来开发一种高分辨率的配准和对齐过程,称之为分箱,在这个过程中,为每个单元分配一个箱标识,最大限度地提高每个箱内单元的相似性,并最大化想要在每个箱内比较的所有样本的表示,同时最小化所需的团聚程度(1)。属于具有最高通信方差的箱子的发送方和接收方单元可以用来构造M 

最后,Scriabin实现了单细胞解析CCC分析的工作流程,可扩展到任何数据集大小,从而能够发现共表达的配体-受体相互作用程序。这种工作流程的动机是观察到转录相似的发送-接收细胞对将倾向于通过相似的配体-受体对进行通信。为了实现这一目标,采用了完善的加权基因相关网络分析(WGCNA)管道——旨在寻找共表达基因的模块——来揭示由同一组发送者-接收者细胞对共同表达的配体-受体对的模块,称之为相互作用程序Scriabin计算M个子集的序列,这些序列用于迭代逼近拓扑重叠矩阵(TOM),然后用于发现高度连接的交互程序。由于近似TOM的维数在数据集之间是一致的,因此该方法具有高度可扩展性。对个体交互程序的连通性进行统计显著性测试,这可以揭示样本之间共表达模式的差异。对单细胞进行评分,以确定统计上显著的相互作用程序的表达。比较分析包括对确定的相互作用程序的差异表达分析以及样品之间的模内连通性的比较。 

image.png 

1使用Scriabin进行细胞分辨通讯分析的示意图概述。Scriabin由多个分析工作流组成,具体取决于数据集大小和用户的分析目标。a,这些工作流程的核心是计算CCIM M,它代表每对细胞的所有配体受体表达评分。bCCIM工作流程。在小数据集中,M可以直接计算,使用NicheNet和加权细胞-细胞相互作用矩阵预测活跃的CCC边,用于下游分析任务,如降维。M是由P对配体-受体组成的N × N个细胞的矩阵,其中每一个唯一的同源配体-受体组合构成一个唯一的P。在大型比较分析中,可以计算一个汇总的交互图S来代替完整的数据集M。在通过分类对高分辨率数据集进行比对后,总交流潜力中变量最大的分类箱可用于构建一个智能子集M. d,交互程序(Interaction ProgramIP)发现工作流。通过对配体-受体对TOM的迭代逼近,可以发现共表达的配体-受体对的IP。单个细胞可以被标记为每个IP的表达 

为了说明在单细胞分辨率下进行CCC分析的重要性,Scriabin检查了肿瘤微环境中T细胞的CCC。由于其低RNA含量,通常很难从其转录组推断T细胞的功能状态,然而T细胞参与对临床和治疗结果很重要的交流途径。此外,转录证据表明辅助性T细胞可能存在于表型连续体中,而不是传统的离散功能原型中。在鳞状细胞癌(SCC)和匹配对照的数据集中,Scriabin发现瘤内T细胞与正常皮肤中的T细胞之间存在高度的全转录组表型重叠(2a)。此外,尽管该数据集中存在耗尽的T细胞,但它们并没有占据一个离散的簇,而是分布在多个簇中(2a),这使得基于簇的CCC方法无法在没有先验知识的情况下检测耗尽T细胞特有的通信方式。通过将CCIM工作流程应用于T细胞对和CD1C+树突状细胞(该数据集中最丰富的抗原呈递细胞(APC)),测试了Scriabin在揭示T细胞交流表型异质性方面的效用。这也揭示了肿瘤和匹配正常之间的通信谱之间的明显区别作为具有耗尽T细胞的不同细胞-细胞对群体(2b)。与未耗竭的T细胞相比,耗竭的T细胞主要通过耗竭相关标记物CTLA4TIGITCD1C+ DC进行通信,并丢失了涉及促炎趋化因子(CCL4CCL5)的通信途径(2c)。这说明了凝聚技术可能忽略的交际异质性。 

image.png

2 Scriabin基准和鲁棒性分析。a,来自Ji等人的SCC数据集的1,624个肿瘤内T细胞的UMAP投影,按簇身份(左上),原始样本(肿瘤或匹配的正常;左下)T细胞衰竭评分()。右边的点阵图描述了每个集群中T细胞衰竭评分的百分比和平均表达。b,来自Scriabin CCIM工作流程的202,708T细胞- CD1C+ DC细胞-细胞对的UMAP预测。点由原始样本()和细胞-细胞对中T细胞的T细胞耗尽分数()着色。c,条形图描绘了T细胞- CD1C+ DC细胞-细胞对在耗尽和非耗尽的T细胞发送者之间差异表达的配体受体对。d,示意图说明了评估技术噪声对Scriabin细胞-细胞通信分析稳健性的影响的工作流程。e,左:框图描述了下采样CCIM再现GT CCIM的能力。y轴表示查询cell-cell对重述的GT cell-cell对的比例(LISI分数>1),点由GT cell-cell对的平均LISI分数着色。每个实验条件在来自三个独立数据集的300个细胞的12个不同随机子样本上重复。右图:柱状图描绘了每个数据集达到inDrop覆盖所需的下采样程度 

ScriabinR语言编写,详细实现和使用参见https://github.com/BlishLab/scriabin 

参考文献

[1] Wilk, A. J., Shalek, A. K., Holmes, S. & Blish, C. A. Comparative analysis of cell–cell communication at single-cell resolution. Nat. Biotechnol (2023). https://doi.org/ 10.1038/s41587-023-01782-z

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

 

image.png




https://blog.sciencenet.cn/blog-571917-1394352.html

上一篇:细胞通讯方法Scriabin评述
下一篇:基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
收藏 IP: 39.128.55.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 23:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部