zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

转录组学的生物信息学视角:批量与单细胞 RNA 测序分析的全面综述

已有 997 次阅读 2025-12-1 09:22 |个人分类:科普|系统分类:科普集锦

转录组学的生物信息学视角:批量与单细胞 RNA 测序分析的全面综述 

转录组是一个动态且复杂的实体,在细胞生物学中起着核心作用。转录组由细胞合成的全套 RNA 分子组成,并影响各种细胞过程。转录组的显著适应性使细胞能够根据内部信号、环境压力和发育信号精细调节基因表达。理解这些转录组动态是深入理解调控健康与疾病的根本生物学过程的关键。RNA 测序(RNA-seq)技术的出现,得益于下一代测序(NGS)技术,极大地革新了我们探索和理解转录组的能力。RNA-seq 能够测量 RNA 分子的丰度,从而提供全面的基因表达图景。应用于转录组数据的生物信息学分析能够识别差异表达基因(DEG),阐明基因调控网络,并追踪在不同条件下转录组的变化。在过去十年中,NGS 平台的发展显著降低了测序成本,提高了准确性,使得对基因表达进行更全面的研究成为可能,同时也发现了新的 RNA 种类和病毒病原体,正如近期在 SARS-CoV-2 大流行中所经历的那样。这些方法可以应用于组织水平(称为批量 RNA 测序,bulk RNA-seq)和单个细胞水平(称为单细胞 RNA 测序,scRNA-seq)。批量 RNA 测序分析异质细胞群体的综合基因表达,提供组织样本内的平均表达谱,而单细胞 RNA 测序在单个细胞水平上检查基因表达模式,提供无与伦比的分辨率,揭示细胞异质性,识别稀有细胞类型,并区分不同的细胞群体。 

这些策略和大数据生成的信息为开发新疗法和药物带来了巨大希望。例如,COVID-19 疫苗的快速研发展示了 RNA 技术在应对全球健康危机方面的潜力。除了人类健康,这些技术也影响着农业和畜牧业等经济重要领域。研究工作集中于识别与疾病抗性、病原体耐受性和非生物胁迫相关的基因,以及植物和动物中的营养成分。 

此外,近年来机器学习和人工智能工具的兴起推动了基于 RNA 的医疗产品的激增。当结合这些新的计算工具时,RNA 技术在加速创新治疗解决方案的开发方面具有巨大潜力例如个性化疫苗、改进现有技术以管理季节性感染,以及增强对未来大流行病的准备。 

随着计算工具能力的持续进步和 RNA 测序平台可靠性与效率的提升,转录组研究领域正迎来重大发展的理想时机。然而,现有多数综述仅聚焦于描述单一技术,无论是批量 RNA 测序还是单细胞 RNA 测序。这种缺乏比较分析的现状限制了人们对两种方法学异同的全面理解,也未能明确各自所需的特定计算工具。最近,综述《Bioinformatics perspectives on transcriptomics: a comprehensive review of bulk and single-cell RNA sequencing analyses》旨在填补这一文献空白,通过系统比较 RNA 测序和单细胞 RNA 测序中涉及的计算过程,突出其基本原理、应用、优势与局限性,并概述转录组研究的未来方向。通过梳理两种方法学的计算图景,旨在为研究人员提供一份用户友好的指南,帮助他们有效选择最适合其生物学背景的方法。全面掌握批量 RNA 测序(以下简称 RNA 测序)和单细胞 RNA 测序对于确保生物学推断的准确性,以及推动从人类健康到农业等多个领域创新至关重要。 

RNA 测序和单细胞 RNA 测序的样本制备和测序

RNA 测序和单细胞 RNA 测序分析的第一步是定义和制备样本(图 1A 和图 2A)。这是 RNA 测序研究中实验设计的一个重要元素,因为它决定了后续分析的范畴。主要目标是界定实验单元,即为了评估其影响而接受处理或条件的个体。在实验设计中必须考虑所有待分析的因素(分类变量)及其水平。例如,He 等人于 2022 年对在 25°C -2.8°C 条件下暴露的细叶桉植物进行了比较转录组学研究,温度作为因素,两个量级作为水平。当多个实验细胞接受相同处理时,它们被视为重复实验细胞。 

image.png

1 批量 RNA 测序流程。(A) 样本制备和测序,从组织 RNA 提取到测序过程。组织来源以肝脏和拟南芥植物表示。(B) 质量控制检查,以 Phred 质量分数图表示,以及 reads 组装以获得 de novo 转录组组装的 contigs(C) 样本序列与基因组或转录组参考进行比对(每列代表与每个基因比对的 reads)以及映射 reads 分配,以原始计数矩阵表示。(D) 每个样本的数据标准化和平均表达谱。(E) 下游分析示例:差异表达火山图、富集分析中过表达的函数、基本局部比对搜索工具注释中的查询比对表示以及基因共表达网络分析中的网络构建和模块检测

image.png

2 单细胞 RNA 测序流程。 (A) 样本制备和测序。图示了肝脏和拟南芥植物组织。漏斗代表各种细胞分离方法,随后进行 mRNA 捕获和测序。 (B) 序列比对和计数。将读数与参考序列比对,按每个细胞计数,生成一个矩阵,表示每个基因每个细胞分配的读数/UMI(C) 数据标准化和基因表达。质量控制步骤包括确定每个细胞的 UMI 计数(总 UMI 数与对数尺度上的假发现率),以及计算线粒体读数百分比。每样本的标准化通过直方图表示,而细胞表达通过条形图可视化。主成分分析降维有助于识别新型细胞类型和表达变化。细胞聚类通过 t 分布随机邻域嵌入图表示,不同颜色代表细胞簇。(D) 下游分析。 这一步骤包括火山图展示的差异表达分析、富集分析、轨迹分析以及与其他组学数据(如空间转录组学)的整合 

可以进行多种配置的比较,包括基于不同表型、多种表型或处理方式对比两组,或是在时间进程中(时间进程实验)对比压力或处理方式的进展。在此阶段一个关键的考虑因素是确定重复次数的数量。在 RNA 测序分析中通常以三个重复作为标准;然而,这个数字可能会根据具体研究重点的不同,在探索性分析中,为建立假设,使用三个重复即可。然而,为了监测相关基因的表达或对特定条件进行更全面的调查,建议使用六个或 12 个重复。重复次数直接影响差异表达基因(DEG)的估计。使用更多重复非常有效,有助于减少生物学变异并提高精确度。 

需要考虑实验单元的随机化,以避免批次效应的发生。这些效应是指在样品不同批次处理时产生的技术变异,可能导致引入系统差异,从而掩盖真实的生物学差异。根据既定方案精心设计的实验设计,对于生成可靠数据并促进 RNA 测序分析得出有意义的结论至关重要。 

一旦实验单元、重复次数、要进行的比较类型以及确保实验可重复性、避免过程污染或伪影的必要考虑因素已定义,就施加处理并获取用于测序的遗传物质。cDNA 文库的生成过程始于直接从感兴趣的组织或样本中提取总 RNA(图1A)。这项任务存在多种方法,从传统的基于 Trizol 的方案到市售试剂盒。重要的是要考虑所选方法可能会微妙地影响某些转录本的丰度,从而引入不希望的偏差。在总 RNA 提取后,通过 poly(A)尾选择性地捕获 mRNA,作为 cDNA 合成的模板。所得 cDNA 经过片段化,并通过聚合酶链式反应(PCR)进行扩增(图 1A)。这个片段化步骤对于 Illumina 等短读长测序平台是必要的,因为它有助于高效地测序较短的片段。 然而,像牛津纳米孔这样的长读长测序技术的进步绕过了片段化需求。这使得能够直接测序全长 cDNA,从而能够研究可变剪接异构体和完整转录本。 

在基因组学研究中,短读长和长读长测序之间的选择至关重要,RNA 测序实验取决于特定的研究目标。对于主要集中于定量和分析基因表达的研究,Illumina 等短读长平台主导着研究领域。这种偏好源于 Illumina 的卓越准确度(<0.1%错误率)和大量测序产量,根据制造商的规格,NovaSeq 可达到高达 40 亿个短序列。然而在研究替代 mRNA 异构体和表观遗传修饰时,像牛津纳米孔和太平洋生物科学(PacBio)单分子实时(SMRT)技术这样的长读长平台能够提供独特的测序整个 mRNA 转录本的能力。虽然与短读长相比,长读长测序平台的一个初始缺点是高达 20%的高错误率,但随着其技术的开发和改进,这一错误率已降低到 0.5% 14%之间。在分析测序共识时,这一错误率可以进一步改进到<0.02% 

在单细胞 RNA 测序(scRNA-seq)的背景下,工作流程包括样本采集、单细胞分离、细胞裂解、mRNA 捕获、逆转录、cDNA 扩增、文库构建、测序以及数据分析(图 2A)。与 RNA 测序不同,其中重复代表来自相同条件下的独立样本,scRNA-seq 通常旨在比较不同条件下个体之间的细胞群体。由于每个细胞都是独特的实体,且在分离和 RNA 捕获过程中技术变化可能引入显著的细胞间差异,因此生物学重复的概念并不严格适用。由于捕获的 mRNA 分子通常产量较低,导致大量未表达的基因和随之而来的大量零计数,近期的 scRNA-seq 方案通过使用对照序列和应用稳健的统计方法来解决这些技术偏差。 

已有多种 scRNA-seq 方法被开发出来,它们在自动化程度、通量和成本上各不相同。这些差异体现在细胞分离、逆转录时的转录本长度(全长或 3'/5'端)、cDNA 扩增方法(聚合酶链式反应或 PCR、体外转录或 IVT)以及文库制备中条形码的使用(独特分子标识符或 UMI)。总体而言,这些方法可分为两类:全长测序方法和 3'/5'端测序方法(基于标签的方法)。全长测序方法包括 Quartz-seqSmart-seq Smart-seq2等。基于3'端的测序方法例子有 CEL-seq2Drop-seqinDrop以及 10x Genomics,而基于 5'端的测序方法是 STRT-seq。全长转录 scRNA-seq 方法更适用于异构体分析和等位基因表达检测。然而,由于成本较高,基于标签的 scRNA-seq 技术仍然更受欢迎。目前,最受欢迎的方法是基于液滴的微流控技术(微液滴),例如 Drop-seqin Drop-seq 10x Genomics。这些方法因其样本消耗量低、精确的流体控制和低操作成本而受到青睐。这些方法在其方案中结合了 UMI,能够实现样本多重检测并提高基因定量和性能。通常,cDNA 扩增是必要的,以生成足够的材料用于高通量测序。然而,在 cDNA 扩增过程中,可能会发生碱基掺入错误和偏向性扩增,这些错误可能会传播到最终的测序文库中。为了克服扩增过程中的偏差,UMI被引入来对每个 mRNA 分子进行标记并筛选错误。文库制备完成后,文库会进行高通量测序。 

RNA 测序的质量控制与转录组组装

得到的测序读段会经过质量控制,以确保下游分析的准确性和可靠性。RNA 测序读段的质量评估包括碱基修剪、低质量过滤和去除序列污染。Phred 质量分数,用于估计测序过程中碱基调用的错误概率,指导碱基修剪和低质量过滤(图 1B)。识别任何剩余的接头或与样本无关的过代表序列对于有效去除污染至关重要。有多种工具可用于短读段的质量分析,包括 FastQC FQStat。这两种工具都提供了一套统计数据,用于探索测序过程中获得的读段的质量、分布和其他指标,并附有图表以可视化其报告。FastQC是一个广泛使用的工具,目前支持来自 PacBio 测序技术的长读段分析。作为长读段质量分析的替代方案,Falco是一个可行的选择。它提供与 FastQC 类似的指标,但分析时间更短。 

尽管在 Illumina 平台上进行短读测序的错误率通常较低(<0.1%),但仍然可能出现低质量片段和接头污染。用于过滤和修剪短读的最常用工具之一是 Trimmomatic。此外,还有几种工具可以整合短读和长读的质量分析、过滤和修剪,包括 HTSQualC fastp。有些工具,如 Porechop,专门设计用于查找和移除牛津纳米孔测序的接头。因此,选择其中之一将取决于几个因素,包括测序平台类型、分配给此步骤的时间、识别的质量以及一个或多个预处理步骤的整合。 

在完成原始短读的质量评估后,RNA 测序数据可以使用从头或参考引导的方法组装成转录组(图 1B)。从头组装是从头开始重建更长的序列,contigs依赖于 k-mer,通常使用 de Bruijn 图算法。一些最广泛使用的 de novo 组装器包括 TrinityOasesSOAPdenovo-TransIDP-denovornaSPAdesTrans-ABySSTransLiG[ RNA-Bloom2。其中最流行的 de novo 组装器是 Trinity,自首次发布以来已被引用超过 14,000 篇文献。它已被用于研究多种生物,包括细菌等原核生物、植物和伊比利亚肋新蜥等真核生物,以及其他许多物种。基准测试研究突出了 Trinity 和其他组装器的特点和优势。例如,Wang Gribskov 2016 年评估了八个用于拟南芥 RNA-Seq 数据集 de novo 组装的工具。他们的研究结果表明,Trans-ABySS 在基因覆盖率和全长转录本回收方面表现更好。相反,Trinity SOAPdenovo-Trans 在使用 de novo 组装指标评估时显示出最高的转录组质量。 在最近的一项研究中,Hölzer Marz 2019 年使用来自不同生物界的 9 RNA-Seq 数据集,对 10 个组装器进行了比较分析。结果表明,Trinity Trans-ABySS 在总体指标得分上最高,并在大多数数据集上展示了 95%的组装同源体率。然而,Trinity 在初始组装阶段表现出较高的内存消耗峰值,而 Trans-ABySS 在大数据集和人类模拟数据上表现出色,但在大多数情况下存在较高的重复率。关于转录本数量,根据 Ahmadi 等人于 2023 年对七个组装器进行的分析结果,Trinity 实现了最高值。总的来说,比较研究表明,尽管每个工具都有其独特的优势,但没有任何一个工具在所有方面都始终优于其他工具。 然而,从短读中组装所有替代转录本仍然是一项特别具有挑战性的任务,因为替代剪接事件具有高度复杂性和多样性,并且需要计算效率和准确性来应对这一挑战。 

长读测序的优势在于避免了转录本组装的过程,这可能导致嵌合体形成并干扰亚型分析。然而,由于长读测序的错误率,根据研究问题,长读组装可能是必要的。例如,RNA-Bloom2 可以通过一个六步过程对长读进行从头组装,包括:(i)错误校正,使用或不用短读支持,通过布劳因图;(ii)数字归一化;(iii)浅读深度区域的修剪和分割;(iv)单元 igs 形成;(v) 单元 igs 的优化;以及 (vi) 基于标准化读深度的转录本推导。然而,需要进一步研究以评估其效果并确定其从长读长中组装转录本的能力。 

组装完成后,新组装的转录组必须进行质量控制。质量控制通常包括冗余度降低、统计指标、嵌合体检测、通用直系同源基因鉴定和污染去除。聚类高度相似的序列有助于降低冗余;基于身份和覆盖率阈值的序列聚类工具(如 CD-HIT)可能很有用。组装统计指标,如获得的不连续序列数量、平均不连续序列长度以及不连续序列 N50 ExN50,为组装质量提供了宝贵的见解。这些指标可以使用 SeqKitTransRate rnaQUAST等工具进行计算。需要仔细解读这些指标。例如,N50 不连续序列表示总组装碱基量的一半包含在长度等于或大于该大小的序列中,过高的 N50 可能表明存在嵌合体。 

评估从头组装质量最广泛使用的工具之一是 TransRate,因为它可以通过使用读数和组装作为输入来识别不完整的组装、结构错误以及嵌合体的存在。作为一种无参考工具,它可以在多种生物体和 RNA 类型中使用。一般来说,转录组组装新算法的持续开发提高了精确性和通用性。然而,由于融合或冗余转录本的高发生率,多倍体生物体的转录本组装是一个重大挑战。在这方面,组装器 TransLiG Trinity SOAPdenovo-Trans相比,在自四倍体中显示出最高的完整性和全长转录组。在这种情况下使用 TransRate和基准通用单拷贝直系同源物(BUSCO)工具对组装结果进行评估,被证明足以评估TransLiG的性能。BUSCO 工具广泛用于此目的,完整性评分超过80%通常表明组装质量较高。BUSCO 分析将结果分为以下几类:完整单拷贝、完整重复、片段化和缺失的直系同源物。 

如前所述,由于重复序列的产生,组装器在定义转录本异构体时可能会遇到困难。因此,在使用 de novo 组装的转录组作为读段映射参考时,通常需要进行异构体冗余减少,以避免基因表达水平的过高估计。这一步骤可以通过使用代表性异构体来实现。此外,还可以通过鉴定通用直系同源物来对组装质量进行额外评估,它作为估计组装完整性的有价值替代指标。这项评估涉及将预测的基因或蛋白质与 OrthoDB中记录的内容进行比较。这种多方面的质量控制方法确保了从头组装的完整性和可靠性,以便进行下游分析。 

序列比对和序列计数

scRNA-seq RNA-seq 都涉及将 RNA 读数映射到参考基因组或转录组(图 1C 2B)。然而,scRNA-seq 数据的比对面临着独特的挑战,包括低丰度转录本的存在以及细胞异质性的固有复杂性。相比之下,由于数据质量更高,RNA-seq 数据的比对通常比较直接。在这两种情况下,使用短读数更可取,因为它们提供了更大的测序深度,并能够对低表达基因进行定量。在最近对小鼠内皮细胞的研究中以及植物根系中同源基因在调控网络中的作用中得到了证明。 

数据标准化、基因表达和下游分析

RNA 测序和单细胞 RNA 测序在归一化技术、基因表达分析以及下游分析策略上存在显著差异。在 RNA 测序中,归一化方法通常涉及将读数计数缩放以考虑样本间库大小或分布的差异,旨在减少技术偏差。相反,单细胞 RNA 测序的归一化技术侧重于解决测序深度变化和细胞间差异等挑战。RNA 测序中的基因表达分析侧重于量化细胞群体的平均表达水平,提供对集体基因表达模式的见解。相比之下,单细胞 RNA 测序允许对基因表达进行在单细胞水平上提供基因表达谱,能够识别稀有细胞类型和细胞异质性。RNA 测序的下游分析通常涉及差异表达分析(DEA)、通路富集研究和基于表达模式的基因聚类,以阐明生物学过程中潜在的作用机制。对于 scRNA 测序,下游分析可能包括细胞和基因聚类、轨迹推断(TI)和细胞类型鉴定,揭示细胞动态和谱系关系。 

用于转录组研究的多数据库整合

1)批次效应校正

公共 RNA 测序和单细胞 RNA 测序数据集在 NCBI 等数据库中的指数级增长提供了丰富的宝贵信息。然而,有效利用这一巨大资源面临着重大挑战。不同研究之间平台、实验室和协议的差异引入的不一致性会导致数据产生偏差,即批次效应。这些批次效应会扭曲基因表达模式,使得识别真实的生物学信号变得困难。例如,样本制备或测序技术的差异可能引入系统性偏差,从而掩盖基因表达的真实变化。为了避免对基因功能、调控和整体细胞过程的错误结论,需要采用适当的方法来校正批次效应。随着数据库中存储的信息量呈指数级增长,开发强大的批次效应校正方法已成为首要任务,以确保研究人员能够充分利用这些海量数据的全部潜力。 

对于单细胞 RNA 测序(scRNA-seq),已经开发了多种批次效应校正方法,这些方法可以分为五类:(i) 基于锚定的方法依赖于识别跨批次细胞的对相似表达模式(锚点)来指导批次整合和消除批次效应。互近邻(MNN)算法通常用于这些方法中,并在 MNN‐CorrectBEERSeuratScanorama scMerge等工具中实现。(ii)基于图的方法在批次之间和批次内部构建加权图,使用社区检测算法来识别共享细胞群体。Conos(执行成对批次比较)和 BBKNN(利用每个批次内的 k 近邻)是具有代表性的例子。(iii)基于锚图的方法同时使用锚点和图表示进行校正。LIGER 体现了这种方法,并依赖于这样的假设:数据集之间的差异是由于技术变异而非生物来源。(iv)基于深度学习的方法利用深度神经网络的力量来学习数据中的复杂模式。 例如 MMD‐ResNet,它假设数据分布存在批次差异,以及 scGen,它利用一个训练好的变分自编码器 VAE 模型从参考批次中学习数据分布。(v)基于模型的方法依赖于关于数据分布或细胞类型聚类的特定假设。这些方法包括 ComBat,它采用一个假设正态分布的经验贝叶斯框架,以及 Limma 使用一个包含批次效应项的线性模型。 

RNA 测序研究的背景下,GCN 是一种强大的预测基因功能和调控的工具。基因共表达分析需要大量的样本,这些样本通常只能从公共数据库中获取。因此,减轻批次效应的影响至关重要。在一项近期研究中,Vandenbon 评估了 50 种校正批次效应的策略,这些策略应用于包含超过 400 项人类和小鼠研究的庞大数据集(2022 年)。研究结果表明,ComBat 工具和 limma removeBatchEffect 函数通过提高网络质量 45%来增强分析效果。类似地,Soto‐Cardinault 等人于 2023 年证明了数据标准化和识别异常值对于校正批次效应的重要性。 

2)解卷积

RNA 序列解卷积是一种计算技术,通过基因表达谱推断异质样本中不同细胞类型的比例,主要利用单细胞 RNA 测序数据。这种方法特别适用于分析异质性组织或复杂的生物样本,其中分离单个细胞类型具有挑战性。其主要目标是估计样本中每种细胞类型的相对丰度。这种方法已广泛应用于生物医学领域尤其用于识别癌症或脑肿瘤组织中存在的不同细胞类型。例如,Newman 等人于 2019 年采用去卷积技术推断各种肿瘤类型的细胞类型特异性基因表达谱,从而无需进行物理细胞分离。同样,去卷积技术已被应用于批量肿瘤转录组数据,以识别与肿瘤样本最密切相关的发育轨迹,用于癌症来源的分类。此外,该方法还被用于通过从批量 RNA 测序数据中生成计算机模拟单细胞 RNA 测序数据,阐明骨关节炎滑膜组织中各种细胞类型的异质性。 

已开发出超过 50 种去卷积技术,目前仍在努力对其效率进行基准测试。大多数方法依赖于参考矩阵,该矩阵存储每种细胞类型的特定基因表达模式。当应用于 RNA 测序数据时,去卷积算法旨在找到最佳参考轮廓组合,以最好地产生批量样本中观察到的基因表达数据。现有的统计去卷积方法分为两大类:监督方法和无监督方法。监督方法需要标记数据集,其中 RNA 测序样本附带其相应的细胞类型比例。传统上,这些比例可以通过实验分离纯细胞群体获得,或者更近期地,通过利用 scRNA 测序数据本身作为参考。在这种方法中,使用 scRNA 测序数据的基因表达轮廓构建参考矩阵。然后,监督方法利用标记数据集和参考矩阵来学习如何从观察到的 RNA 测序数据中预测细胞类型比例。用于此目的的常见机器学习技术包括回归和支持向量机。这些技术的例子有 MuSiCEPICBLADEInteRD CIBERSORTx。有监督去卷积的准确性很大程度上受到参考细胞类型特征相对于批量表达谱的质量和代表性的影响。高质量的参考数据能带来更准确的结果。然而,当将这些方法应用于与开发模型所用的训练数据差异显著的新颖或多样样本时,它们的性能可能不佳。 

相比之下,无监督方法不需要任何关于样本细胞类型组成的先验信息。它们完全依赖于批量样本自身的基因表达数据。虽然无监督方法也利用参考基因表达谱,但这些参考通常从外部来源获取,例如公开可用的数据集或数据库。其目标是将批量基因表达数据分解为对应不同细胞类型的参考特征的组合。像非负矩阵分解(NMF)这样的技术常用于此目的。NMF 算法将批量基因表达数据分解为细胞类型特异性表达谱和相应的细胞比例,并带有非负和为 1”等约束。基于 NMF 的方法包括 FaStaNMF DECODER。其他广泛使用的无监督方法有 CDSeq CAM。无监督方法具有更大的灵活性,因为它们可以应用于更广泛的样本,包括那些缺乏标记训练数据的样本。然而,它们的性能对参考数据的质量非常敏感,在处理复杂混合物或噪声数据时,可能不如监督方法表现好。 

如前所述,大多数去卷积技术已被应用于生物医学研究。最近去卷积技术已扩展到模式植物拟南芥的 RNA 测序数据。鉴于这些最新研究,一个新的研究方向已打开,为这些技术的进一步应用铺平了道路,旨在重用和扩展不同生物体中 RNA 测序数据可用信息。 

转录组学的机遇与挑战

1)扩展 RNA 测序的范围

RNA 测序是一项成熟的技术,拥有高通量测序平台和多样化的数据分析工具。该领域的持续发展既带来了新的挑战也提供了新的机遇。例如,RNA 测序可用于识别导致孟德尔疾病的异常基因表达。然而,为了确保有意义的结果、保证无偏倚的结果和临床可重复性,标准化和自动化 RNA 测序协议和计算流程至关重要。最近,一些研究探索了 RNA 测序对其他 RNA 分子(如小 RNA 和长链非编码 RNA)的适用性。例如,循环微 RNA 是许多人类疾病(尤其是癌症)的潜在生物标志物。微 RNA 存在于多种人类体液中,且非常稳定。利用 RNA 测序对这些分子进行定量并确定其水平,将作为癌症和其他疾病的早期检测生物标志物,以及可能的治疗药物。这突出了技术改进和工具开发以有效分析这些分子的必要性。 

整合 RNA 测序与其他组学数据(例如蛋白质组学、代谢组学)是一个不断发展的领域,能够更全面地探索生物学现象。例如,将 RNA 测序与代谢组学整合正在农业研究中应用,以探索与植物病害相关的生理和代谢变化,并阐明其病理生理学。在植物-病原体相互作用期间,将基因表达数据与代谢物相关联有助于获得有前景的结果和新视角,以及分子育种的发展,这些可用于作物改良的标记辅助选择。此外,RNA 测序已成为阐明植物与有益微生物相互作用中涉及的转录调控网络的有价值工具。这促进了生物肥料对植物生长和养分吸收的启动子效应的鉴定,从而提高了作物产量和质量。 

2)单细胞多组学,scRNA 测序的挑战和未来方向

相比之下,scRNA-seq 在不同阶段都面临挑战。将其应用扩展到多种组织类型和实现高效的细胞分离是主要挑战。大多数 scRNA-seq 研究集中在小鼠和人类等高等生物上。对单细胞真核微生物(例如小球藻)或原核生物(细菌)的研究有限。这些生物的坚韧细胞壁使得在细胞裂解后难以获得足够的 RNA,而某些 RNA 分子缺乏多聚腺苷酸尾巴,阻碍了在测序过程中的捕获。为了克服这些限制并将 scRNA-seq 应用扩展到更广泛的生物体,需要细胞裂解和 RNA 捕获技术的进步。低效和有偏的 RNA 捕获也带来了技术挑战,最终影响数据分析和研究范围。这些挑战表现为测序深度低、零读数数量高以及基因表达被低估。需要考虑 scRNA-seq 数据特殊性的统计策略来解决这些偏差。 

目前,scRNA-seq 读段主要与现有参考基因组进行比对。尽管存在用于从头构建转录组工具,但易于获取的参考基因组对于 scRNA-seq 在多种生物体和组织中的广泛应用至关重要。此外,识别细胞群体是 scRNA-seq 分析的关键步骤。尽管存在一些物种或组织特异性图谱,但许多不同物种缺乏高质量细胞图谱,这给理解细胞身份、功能、发育和调控带来了挑战。因此,缺乏这类信息阻碍了细胞类型注释和新细胞群体的发现。 

scRNA-seq 可用的生物信息学分析协议种类繁多,鉴于数据的复杂性,需要标准化工作。基准测试研究对于确定其范围、适用性以及改进领域,以在转录组数据分析中遵循良好实践至关重要。 

尽管未来仍面临挑战,scRNA-seq 在方法和技术上的进步已成为一个重要转折点,特别是在人类健康领域,同时也包括农业等其他领域。单细胞多组学技术的出现使得能够同时获取基因组、表观基因组、转录组、蛋白质组和其他组学分析模式,从而更深入地理解生物机制和基因型-表型关系。单细胞多组学通常涉及将 scRNA-seq 与其他组学策略相结合,目的是阐明基因表达与表型异质性的关系。最初的多种组学方法整合了基因组和转录组测序(G&T-seqDR-seqTARGET-seq)。然而,仅基于基因组和转录组谱图之间耦合信息来理解不同表型的复杂性,并不能解决相同 DNA 在不同细胞中为何具有不同表达模式的问题。整合转录组和表观遗传信息的多种组学方法是应用最广泛的方法。 这些方法将 DNA 甲基化与基因表达相关联,以推导出单细胞全基因组甲基组和转录组测序(scMT-seq)方法。染色质可及性分析的最新发展导致了在转座酶可及染色质测序(ATAC-seq)的创建过程中,该技术识别基因组中开放染色质区域并将其与基因转录联系起来。这些技术已被进一步改进,以捕获表观基因组和转录组特征,包括单细胞转录组和可及区域测定(ASTAR-seq] 

转录组与蛋白质组的整合是应用最广泛的多组学策略之一。通过测序和 RNA 表达及蛋白质测序检测方法(REAP-seq)对转录组和表位的细胞索引是最有效获取蛋白质组和转录组谱的方法、。最新的多组学技术通过 CRISPR-Cas9 将转录组表型与基因扰动联系起来。这些技术发展包括 CRISP-seqMosaic-seq Perturb-seq。将 scRNA-seq 与其他组学数据(如基因组学或表观基因组学)整合具有前景,但也面临一些挑战。现有协议的局限性以及整合标准化工具的缺乏,代表了有效实施这一强大方法的主要障碍。 

scRNA-seq 的快速发展对于新细胞类型的发现至关重要,并使得在不同物种中创建细胞图谱成为可能,包括人类图谱、小鼠图谱和果蝇图谱。因此,理解细胞区室的空间组织对于器官和组织的形成与发展至关重要,进而对于多细胞生物的功能也至关重要。这个研究领域被称为空间转录组学(ST)。为了理解细胞的空间信息,已经开发出多种技术,并因其重要性被《自然方法》命名为 2020 年的年度方法。通过结合 scRNA-seq 中使用的分离策略与原位杂交技术和图像分析,可以在单细胞分辨率下实现 ST ST 策略主要分为两类:(1)基于下一代测序(NGS)的方法,在下一代测序前将位置信息编码到转录本上;(2)基于成像的方法,包括原位测序方法和原位杂交方法。这个过程能生成组织中不同区域的基因活性空间图谱,从而确定基因在特定环境下的表达位置和方式。该研究领域发展迅速,每天都有新的机器学习和深度学习算法被开发出来,利用基因表达及相关指标在细胞中定位不同的转录本。该领域的最新创新包括 novoSpaRcTangramCelltrekCytoSPACEcell2locationSPOTlight以及更多。这项技术对人类健康产生了前所未有的影响。它改变了我们对一系列系统的理解,包括大脑发育和功能、与精神分裂症和自闭症相关的基因鉴定、精子发生、心脏和肠道发育。此外,在植物领域,我们可以找到拟南芥的发育研究,然而,与人类生物学相比,它们仍处于早期阶段。 

scRNA 测序和单细胞空间转录组(ST)技术极大地扩展了我们对复杂细胞间通讯的理解。细胞协调一致地执行多细胞生物体的功能。细胞间相互作用(CCI),也称为细胞间通讯或细胞信号传导,是细胞协调其行为的方式。这些相互作用对许多生物学过程至关重要,包括细胞生长、细胞分裂和分化、组织或器官发育以及疾病进展。我们可以捕获成千上万甚至数百万个细胞的基因表达谱,其中许多与 CCI 相关。这为研究配体-受体相互作用提供了巨大机会。这些基因的表达水平越高,CCI 的可能性就越大,因此这是一个有前景的研究方向。最近开发了许多生物信息学工具,基于从空间和非空间单细胞转录组数据中获得的基因表达数据,用于模拟和分析细胞之间和细胞内部的 CCI。其中一些包括 celltalkerCellPhoneDBCellChat等。 这些计算工具使我们能够从单细胞 RNA 测序数据(或空间转录组数据)中推断出近似的细胞周期调控异质性(CCI)景观,从而加深我们对不同生物系统中 CCI 机制的理解。特别是在癌症研究中,时间和空间转录组分析(TS)与细胞周期调控异质性(CCI)都允许识别能够改变正常细胞功能状态到异常功能的关键机制,为这种疾病提供更深入的生物学见解,并为新疗法铺平道路。 

3)开发公共数据的潜力:RNA 测序中的数据共享与可重复性

转录组学研究呈指数增长,产生了大量存储在序列读取存档(SRA)、基因表达综合数据库(GEO)或欧洲核苷酸存档(ENA)等公共数据库中的数据。这些丰富的数据使得新的研究方法得以实现,这些方法依赖于未参与原始数据收集的研究人员对大规模公共数据集的分析。然而,整合来自不同研究的数据集由于测序平台的变化和数据质量潜在差异(批次效应),实验仍然是一项挑战。需要稳健的统计方法和策略来解决这些挑战,并实现公共测序数据的有效分析。 

此外,尽管基因组学领域有着数据共享的优良传统,但应用最佳数据共享实践具有明显优势。这有助于提高公共数据质量并确保其可重复性。应尽可能通过特定存储库共享数据,如上述提及的存储库,或需要访问控制的存储库,如 Figshare Zenodo。包含元数据,如实验条件、样本类型和采样细节,对于保证数据可重复性至关重要。不幸的是,正确存储这些信息的指南有限。MINSEQE,即测序实验最小信息集,为描述 RNA-seq 实验所需的最小元数据设定了标准。这旨在避免模糊的解释,并促进结果的再现。此外,对计算分析标准化和详细方法共享的需求十分明确,以确保结果的可重复性和一致性。然而,Simoneau 等人进行的研究表明,仅有 25% RNA 测序文章提供了这些研究中使用的方法的全面细节,突显了报告标准上的显著差距。 

RNA 测序类似,公共 scRNA 测序数据的丰富性为进一步探索提供了令人兴奋的可能性。然而,整合来自不同来源的数据的策略仍在发展中。科学界有机会通过解决与缺乏最佳实践相关的数据存储问题,并开发强大的方法来协调不同 RNA 测序和 scRNA 测序研究中的数据,从而解锁新的生物学见解。 

结论

RNA 测序和单细胞 RNA 测序技术革新了转录组学,使我们能够更深入地了解基因表达在不同生物背景下的复杂动态,从人类健康到农业。RNA 测序为组织中的基因表达提供了全面概述,而单细胞 RNA 测序在单细胞水平上提供了前所未有的分辨率,揭示了细胞异质性和动态变化。尽管这两种策略都旨在通过测序、对齐和量化序列来扩展我们对基因表达及其对细胞动态影响的理解,但它们的分析方法存在显著差异。了解 RNA 测序和单细胞 RNA 测序之间的差异,以及它们的数据分析策略至关重要。为了选择最适合生物学背景的方法。此外,必须采用适当的方法、生物信息学工具和流程来准确解读结果并克服技术挑战。了解每种方法的优缺点使研究人员能够做出更准确的生物学推断,避免误读,并提出改进方案以克服技术和方法上的局限性。将机器学习和深度学习整合到 RNA 测序和单细胞 RNA 测序分析中尤其具有前景,为识别新的生物标志物、理解疾病机制和开发个性化治疗策略提供了强大的工具。此外,将转录组学与其它组学数据整合对于揭示复杂的生物系统具有巨大潜力。总之,批量 RNA 测序和单细胞 RNA 测序技术的优势、尖端的生物信息学和创新计算算法之间的协同作用,无疑将引领生物学和医学不同领域革命性的发现新时代。 

参考文献

[1] Tzec-Interián JA, González-Padilla D, Góngora-Castillo EB. Bioinformatics perspectives on transcriptomics: a comprehensive review of bulk and single-cell RNA sequencing analyses. Quantitative Biology. 2025;e78. https://doi.org/10.1002/qub2.78 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1512405.html

上一篇:SDMap:空间药物扰动图谱数据库
下一篇:单细胞RNA测序的大规模基准测试分析
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 20:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部