||
ScIsoX:测量单细胞中异构体水平转录组复杂性
可变剪接通过从有限数量的基因中产生多种转录本异构体,极大地扩展了真核细胞的功能多样性。近年来单细胞异构体分析技术的进步,使得在前所未有的分辨率下对转录本多样性进行全面表征成为可能。目前已有两种互补的方法可供选择:短读方法,虽然通量高但异构体分辨率有限,以及长读测序技术,能够提供全长转录本表征但通量较低。然而,无论是哪种平台,目前都缺乏用于测量和解释单细胞分辨率下转录组复杂性的多维分析框架。这代表了一个利用异构体解析数据提供的额外信息层次的错失机会。
当前分析单细胞异构体数据的方法面临三大挑战。首先,传统数据结构在多维复杂性方面存在局限性分析。基因-细胞计数矩阵本质上无法捕捉基因间转录本使用复杂性和变异性的情况,而带有基因 ID 元数据的转录本-细胞矩阵,尽管在 Nanopore 和 PacBio 软件中更受欢迎且被广泛采用,但在分析期间识别属于同一基因的转录本时,需要重复元数据查找和数据重组,以进行基因内复杂度操作,从而导致计算效率低下。其次,尝试将基因级和转录本级计数矩阵合并为一个“细胞×基因×转录本”张量,需要大量零填充以适应基因特有的转录本数量变化,导致稀疏的 3D 张量并产生过高的内存需求。第三,虽然现有的分析方法在转录本发现和定量方面表现出色,但它们缺乏能够解决关于细胞和细胞类型间转录本表达模式组织原则的基本问题的综合指标。
为解决单细胞异构体分析中的挑战,Wu等人引入了 ScIsoX(图1,https://github.com/ThaddeusWu/ScIsoX),这是一个计算框架,实现了(i)一种新型的单细胞层次张量(SCHT)数据结构,(ii)一套全面的分析指标,以及(iii)用于在多个生物学尺度上测量转录组复杂性的可视化工具(图 1a )。其核心是 SCHT 将异构体水平的计数数据组织成基因特定的子张量,其中每个基因由一个包含异构体-细胞表达值的单独计数矩阵表示。这种基于划分的设计保留了内在层次结构,无需大量零填充,从而产生既具有生物学意义又具有计算效率的表示。当整合细胞类型信息时,SCHT 扩展为包含细胞类型作为额外的维度。每个计数矩阵仅包含属于该特定细胞类型且表达该基因的细胞,从而创建了一个多层次的层次结构,优雅地捕捉了基因-异构体-细胞之间的关系。
基于这一结构,ScIsoX 通过七个核心指标来概念化转录组复杂性,每个指标捕捉了异构体表达模式的不同维度(图 1a )。主要维度包括(I)细胞内异构体多样性(即一个基因在单个细胞内共同表达多个异构体的趋势)、(II)细胞间异构体多样性(即一个基因在整个细胞群体中表达的异构体多样性)、(III)细胞类型内异质性(即异构体使用上的细胞间差异),以及(IV)细胞类型间特异性(即细胞类型特异性异构体使用的度量)。另外三个更高阶指标测量这些模式中的变异性,以确定(V)细胞异质性是否集中在特定细胞类型中、(VI)特定谱系之间是否存在细胞类型特异性差异,以及(VII)异构体共同表达模式是否在不同细胞类型间存在差异。
通过分析三个不同的单细胞异构体数据集验证了 ScIsoX 的实用性: (1) 通过 Nanopore 测序调查的小鼠造血发育,(2) 通过 Nanopore 测序调查的小鼠和人类大脑发育,以及 (3) 通过 PacBio 的 Kinnex 协议调查的人类外周血单个核细胞 (PBMC)。这些数据集代表了根本不同的生物系统,同时采用了不同的技术方法进行异构体测序。这一选择使能够全面评估 ScIsoX的性能和广泛适用性。所有数据集都包含用于分析的细胞类型注释。分析揭示了这些系统中明显不同的转录组复杂性模式,突出了通过 ScIsoX独特获得的生物学见解。
ScIsoX 中实现的转录组复杂性分析,例如可以评估不同的异构体表达模式(图 1b)。这些模式并非随机分布,小鼠造血发育呈现出双峰模式,以低异构体多样性和低细胞类型特异性为主(Q3:52.89%),且显示较少基因具有细胞类型特异性表达(Q1 + Q2:32.85%)(图 1b)。小鼠脑发育数据集表现出类似的双峰模式,同时在象限间显示出显著的多样性,并有明显的聚集现象。相比之下,人类 PBMC 数据集与这两个发育数据集相比,表现出显著不同的分布,显示出细胞间异构体多样性与细胞类型特异性之间存在极强的正相关(图 1b)。这种紧密的相关性表明,在特化的免疫细胞中,异构体多样性紧密关联于细胞类型特异性功能。 这两种发育数据集显示出比 PBMC更广泛的特异性/多样性关系,反映了发育过程中的转录组异质性比特化的免疫细胞更大,而特化的免疫细胞需要特定的异构体转换事件来进行状态转换并响应细胞信号。

图1 ScIsoX 概述和跨生物系统的复杂性景观比较。a ScIsoX 计算框架的核心,展示了数据结构和分析处理的相互关联组件。左:SCHT 构建将异构体表达数据组织成基因特异性子张量;右:ScIsoX 的分析流程从复杂性指标到生物学见解。b 小鼠早期血液发育和人类的复杂性景观
ScIsoX能够独特地识别具有有趣复杂度特征的基因,这些特征可能被传统的单细胞数据分析所忽略。例如,所有数据集中绝大多数基因表现出比细胞内多样性更高的细胞间多样性,这展示了一个基本原则:基因倾向于表达细胞类型特异性的异构体,而不是在每个细胞类型中表达多种异构体(图 2a)。然而,可以识别出一部分细胞内多样性高于细胞间多样性的基因,这表明单个细胞内多种异构体的协同共表达,而不是细胞特异性异构体选择。这些基因可能需要特定的相互依赖的异构体关系才能正常发挥作用,代表了一种需要进一步研究的独特调控机制。 例如,尽管 Sox17 在内皮-造血转化中的作用已得到充分证实,但其多种转录异构体的具体意义仍基本未得到探索。分析表明,Sox17 可能通过多种异构体的协调表达,在早期造血发育过程中实现其多样的调控功能。
共表达分析揭示了协调异构体表达的独特模式。例如,在小鼠造血发育中,转录因子 Irf8(一种关键的干扰素调节因子,对髓系谱系确定和免疫细胞分化至关重要)显示出多个共表达的异构体簇(图 2b)。对 Irf8 共表达模式的深入分析表明,这些模式代表了多种、不同的动态调控模式。识别出一种异构体对(ENSMUST00000160388:Irf8-202 vs ENSMUST00000162001:Irf8-205),它们在一种经典蛋白质编码转录本和一个保留内含子的变体之间表现出显著的阶段特异性共表达模式。相比之下,另一对(ENSMUST00000047737:Irf8-201 vs ENSMUST00000160943:Irf8-204)则显示涉及非编码 RNA 的转录后缓冲作用和蛋白质异构体转换的功能微调。ScIsoX 还支持追踪不同细胞类型中表达异构体的比例,进一步突显异构体使用的动态变化,例如跨谱系或发育阶段(图 2c)。此外,ScIsoX 有助于详细分析基因的细胞类型特异性复杂性特征。例如,编码 B 淋巴细胞抗原 CD20 的基因 MS4A1,在人类 PBMCs中表现出独特的异构体表达模式,不同的免疫细胞类型显示出不同的异构体共表达谱(图 2d)。值得注意的是,MS4A1 在多样性分析中位于对角线下方(图 2a),在大多数 PBMC 细胞类型中持续共表达多个异构体(图 2d),表明其功能依赖于不同免疫细胞类型中特定异构体组合的协调相互作用。
与现有将异构体多样性视为单一维度的方法不同,ScIsoX 提供了转录组复杂性的多方面视角(图 2e ),并使研究人员能够就可选择的剪接的功能意义生成可检验的假设,例如在发育时间点或解剖区域之间。例如,ScIsoX 揭示了在出生后发育阶段中细胞内异构体多样性的不同模式,其中清晰的基因簇表现出阶段特异性异构体表达谱。图 2f 中的热图说明了某些基因组在整个发育过程中保持高度多样性(深紫色),而另一些则表现出阶段特异性的多样性模式。此外,ScIsoX 揭示了在脑发育过程中动态演变的细胞间异构体多样性和细胞类型特异性,这些在不同脑区之间存在显著差异。

图2 多维度转录组复杂性分析揭示转录本异构体表达模式。a 在三个数据集上进行的细胞内与细胞间多样性分析。突出显示位于对角线下方的基因(即细胞内多样性超过细胞间多样性的基因)。b Irf8 异构体共表达相关性分析,显示不同异构体之间存在正负表达相关性,提示复杂的调控关系。c 小鼠造血发育过程中 Alt1 异构体比例变化。d PBMC中不同免疫细胞类型间 MS4A1 异构体使用谱。e PBMC中不同免疫细胞类型间 IKZF2 复杂性谱比较。f 脑部出生后发育阶段(第 14 天、21 天、28 天和 56 天)细胞内异构体多样性的热图
复杂度指标的有序组织以及分层张量格式便于与互补的单细胞分析方法整合。定量指标可与差异表达模式相关联,以识别表达水平与异构体调控机制之间的关系,使研究人员能够将转录组复杂性的变化与不同条件下的表达水平变化联系起来。转录组复杂性特征还可以与 DNA 结合基序富集模式相关联,以识别驱动特定复杂性特征的潜在调控元件。此外,ScIsoX的细胞类型解析指标可以映射到轨迹推断结果上,例如,以表征细胞分化过程中异构体使用机制的动态变化。分类系统使复杂度维度能够整合到基因调控网络分析中,可能揭示剪接调控因子如何影响网络拓扑和动力学。此外,这些指标支持跨物种比较,以研究异构体调控模式的进化保守性。
特别值得关注的是与差异转录使用(DTU)方法(如 DTUrtle和 Sierra)的互补关系。虽然这些成熟的 DTU 方法在比较分析方面表现出色,能够识别实验条件下转录本比例的统计学显著变化,但 ScIsoX 通过系统表征内在转录组复杂性模式,解决了一个根本不同的分析问题。ScIsoX 不是问“哪些基因在条件之间存在差异转录本使用?”,而是问“转录组的复杂性是什么?”“如何表征数据集中转录本异构体的表达模式?”这为增强分析工作流程创造了机会,其中 ScIsoX 复杂度图谱可以作为先验信息来指导 DTU 研究设计,将比较分析导向具有适当复杂度特征的基因(例如,关注具有多异构体表达的基因而非二元开关),同时 DTU 结果在通过 ScIsoX 的复杂度景观进行解释时,能够获得更深入的生命学背景。
尽管这些机会突出了该框架的潜力,但在应用和解释 ScIsoX 结果时,应考虑几个重要因素。首先也是最重要的,ScIsoX 指标的效度取决于上游数据的质量。在使用 ScIsoX 之前,进行严格的工作流程对于获得可靠结果至关重要。建议用户使用已建立的、平台合适的工具进行异构体定量和过滤,并在实验设计需要时应用批次校正。虽然 ScIsoX 包含内部过滤步骤,但这些旨在减轻残余噪声,并不能替代对上游质量控制的严格要求。
其次,几个指标的准确性取决于高质量的细胞类型注释。虽然ScIsoX兼容任何流行的单细胞聚类和注释方法,但细胞类型定义的质量会影响特定指标的准确性,尤其是基于细胞类型比较的那些指标。在细胞类型边界模糊或注释不确定的情况下,用户在解释结果时应谨慎,或专注于不依赖于细胞类型信息的指标。
第三,ScIsoX 主要提供描述性指标和探索性可视化,用于转录组复杂性模式。虽然共表达分析模块包括统计检验(FDR 校正、引导稳定性),但核心复杂性指标不包括用于跨条件比较的 p 值。对于跨条件的正式统计比较,建议导出复杂性指标,并应用针对特定实验设计和生物学问题的适当统计检验。
第四,用户应意识到分析工作流程旨在关注具有可检测的多异构体表达的基因。因此,在质量控制后仅发现表达单一异构体的基因将被排除在复杂性分析之外。这一过滤步骤对于有意义的解释至关重要,但可能会减少最终考虑的基因数量。提高测序质量和深度可以通过实现更全面的异构体检测来显著缓解这一问题。如果用户希望在后续分析中最大化基因数量,可以在创建 SCHT 时增加 n 参数,但该值不能超过数据集中存在的基因总数。
最后,虽然分层数据结构为典型的单细胞数据集提供了计算优势,但极大规模的数据集可能仍需要额外的优化策略。ScIsoX包括批量处理和内存高效数据处理的选项,以应对这些情况。
参考文献
[1] Wu S, Schmitz U. ScIsoX: a multidimensional framework for m easuring isoform-level transcriptomic complexity in single cells. Genome Biol. 2025;26(1):289. https://doi.org/10.1186/s13059-025-03758-5
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 18:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社