||
人类基因组尺度代谢网络转录组定位的转录组数据归一化方法基准
近十年来,下一代测序(NGS)技术的发展和广泛应用导致转录组分析从微阵列技术向转录组测序技术的转变。NGS生成的计数数据存在技术偏差,如基因长度、文库大小和测序运行差异。因此,在进行下一步分析之前,必须通过归一化方法进行校正。文献中有许多归一化方法,如TPM、FPKM、edgeR包引入的TMM、基因长度校正的GeTMM和DESeq2包提供的相对对数表达(RLE)。TMM基于大多数基因不差异表达的假设,它是重新计算的基因计数的总和。另一个Bioconductor软件包DESeq2使用RLE作为标准化方法,其假设与TMM相似。在RLE中,将校正因子应用于单个基因的读取计数。GeTMM是TMM的更新版本,结合了基因长度校正和归一化程序。在FPKM中,一个样本中所有被映射的读数总和被缩放到一百万,然后按基因长度对每个基因进行归一化。FPKM和TPM的区别仅仅在于标准化操作的顺序。这些归一化方法分为两大类:FPKM和TPM是样本内归一化方法中最常用的方法,TMM和RLE是样本间归一化方法中最常用的方法。此外,GeTMM最近被建议调和样本内和样本间的归一化方法。选择的归一化方法会对下游分析的结果产生重大影响,已有文献中有许多关于转录组数据归一化方法对差异基因表达分析的影响的基准研究。
将细胞或生物体中已知的生化反应及其对应的基因和酶建立为数学平台,称为基因组尺度代谢模型(GEM)重建。在过去的十年中,基因组学越来越受欢迎,因为它们使代谢表型模拟的组学数据集成成为可能。基于基因的表达水平,有不同的算法可用于重建上下文特定的GEM。已经开展了基准研究来比较这些算法捕捉代谢变化的能力。综合代谢分析工具(Integrative Metabolic Analysis Tool,iMAT)是目前最流行的GEM重建算法之一,特别是用于在GEM上绘制人类转录组图。该算法的目的是基于优化框架,假设低表达基因是不活跃的,从而去除由低表达基因控制的反应。由于iMAT具有显著优势,例如不需要生物学目标的数学定义和精确的生理限制作为输入,因此它被广泛用于人类疾病,以创建针对哺乳动物细胞的环境特异性GEM。由于在定义人类代谢的生物学目标函数方面尚无共识,因此不需要目标函数的映射算法通常优选用于重建人类疾病的代谢模型。组织综合网络推理算法(Integrative Network Inference for Tissues,INIT)是另一种用于构建特定条件代谢模型的映射方法。它与iMAT类似,因为它不需要目标函数。
通过整合基因组尺度的代谢模型和组学数据,从系统水平分析人类疾病,特别是癌症和神经退行性疾病中复杂的代谢功能障碍是热门研究领域。在这类研究中,它们重建了对照和疾病状态下的特定条件的GEM,以比较两种状态之间的代谢差异。在应用特定环境的GEM重建算法之前,确定转录组数据的归一化方法是一个具有挑战性且被低估的问题。尽管有许多基准研究分别比较了归一化方法和特定于上下文的GEM重建算法,但尚未有研究调查归一化方法对特定于上下文的GEM重建算法的影响。
由于保健服务和生活质量的改善,世界人口正在老龄化,相关疾病也在增加。阿尔茨海默病(AD)是世界上最常见的神经退行性疾病,在老龄化人口中也变得越来越常见。肺癌是另一种在老年人中发病率较高的疾病,也是所有主要癌症中死亡率最高的疾病。肺腺癌(LUAD)是最常见的肺癌类型。年龄和性别的影响在各种疾病中都很突出,尤其是神经退行性疾病和癌症。例如,阿尔茨海默病的症状在60岁以后才会出现,而且在女性中更为普遍。肺癌的进展也与年龄和性别有关。这些协变量(例如,年龄和性别)的影响可以估计并从数据中去除。近年来,在对AD和肺癌转录组数据集进行统计分析之前,普遍采用协变量调整。在最近的一项研究中,作者使用两种最流行的人体代谢图谱绘制算法iMAT和INIT方法,系统地研究了五种转录组数据归一化方法(RLE、TMM、GeTMM、TPM和FPKM)和协变量调整对重建情境特异性个性化GEM的影响(图1)。这些算法应用于来自流行疾病大队列的流行基因表达数据集,即AD和LUAD。研究代码可在GitHub中获得:https://github.com/SysBioGTU/Tx2MetModelBenchmarkingStudy。
图1 研究的工作流程。a使用FPKM、TPM、TMM、RLE和GeTMM方法对两个数据集(ROSMAP数据库的AD数据集和TCGA数据库的LUAD数据集)进行归一化。还对两个数据集使用协变量调整。b使用iMAT和INIT将转录组数据整合到代谢模型中。生成的个性化代谢模型进行二值化处理,并进行Fisher精确检验以确定显著影响的反应/途径。c采用Jaccard相似度指数评价归一化方法的相似度
五种归一化方法的相似度热图结果显示:AD和LUAD的模式高度相似。不同方法或不同数据重构的GEM之间的相似性是与GEM相关的基准研究中常用的标准。虽然FPKM和TPM在生成的个性化代谢模型上聚类在一起,但FPKM和TPM的相似度指数低于样本间归一化方法的相似度指数。经协变量调整后,样本间归一化方法重建的模型更加一致。与样本间方法相比,GeTMM的聚类行为略有不同。这可能是因为GeTMM使用样本内归一化和样本间归一化,而不像其他两种样本间归一化方法。
调控的疾病相关基因谱的聚类行为与ROSMAP重构GEM代谢含量的相似性分析结果一致。然而,协变量非调整版本的TMM矛盾地表达了一个分离的聚类曲线,而RLE和GeTMM在AD相关基因相似热图中聚在一起。TMM在AD疾病富集分析中也给出了不一致的结果,因为它是唯一一种不能捕获“阿尔茨海默病”显著条目的方法。此外,基于基因的分析表明,即使与样本内归一化方法相比,GeTMM预测的调控基因数量较少,但它可以预测LUAD更具体的疾病术语(肺腺癌)。尽管通过协变量调整版本的归一化数据获得的显著受影响的反应、通路和调控基因的数量低于未调整的协变量版本,但基于AD相关基因和AD代谢组数据分析的准确性得分更高。此外,Choi等人检验了协变量调整对转录组数据基因表达水平的影响,并得出结论:去除混杂因素效应可降低假阳性率。然而,对LUAD数据集进行协变量调整对基于LUAD相关基因的准确性评分没有明显影响。
根据受影响的反应、通路和疾病相关基因,使用基于相似性分析来比较用iMAT算法创建的重建GEM。受显著影响的反应/通路的数量是多还是少,并不是解释用不同方法归一化转录组数据重建GEM的标准。评估结果的最重要标志是真阳性和/或假阳性的数量。预测的反应或通路数量越多,出现假阳性的风险也就越大。基于基因的分析也证实了这一现象,即使FPKM和TPM方法能够预测出更多的遗传基因,但它们的准确性值与RLE、TMM和GeTMM相比要低。这突出了真阳性和真阴性预测之间妥协的重要性,并且在医学领域对于阐明药物靶点或生物标志物至关重要。另一方面,应该指出的是,本文研究验证基因集有限,特别是对于LUAD。同样,缺乏对疾病过程中真正受影响的反应和通路的了解可能会影响对模型预测的反应和通路的适当评估。因此,在基于模型的分析中,评论哪种方法应该是首选的是具有挑战性的。因此,对不同疾病表型的进一步研究可能会更深入地了解归一化方法的预测性能。另一方面,当控制差异反应的疾病相关基因数量作为标准时,TMM在AD和LUAD数据集上表现出一贯的高性能,而FPKM和TPM表现出一贯的低性能。基于代谢物的预测也表明,与样本间归一化方法相比,FPKM和TPM的准确性较低。此外,用样本间归一化方法重构的GEM在活性反应数、受影响反应和通路方面更具一致性和可比性。Zhao等人比较了基于患者源性肿瘤模型重复样本间聚类分析的样本内(TPM, FPKM)和样本间(RLE和TMM)归一化方法。他们同样得出结论,RLE和TMM的表现总体上优于TPM和FPKM。在另一项研究中,TMM给出了子网发现算法的最佳结果。Corchete等人和Maza等人也发现,基于对差异表达基因(DEG)的分析,与FPKM或/和TPM相比,TMM和RLE具有更高的性能。
与基于iMAT模型相比,INIT重建的个性化代谢模型中活跃反应的数量较少,但显著影响的反应数量较多。在样本内归一化方法的个性化模型中,基于iMAT和基于INIT模型在活性反应数量方面都具有很高的可变性,而在样本间归一化方法中可变性相当小。此外,在INIT结果中,样本间归一化方法聚在一起,与iMAT结果相似。虽然iMAT和INIT重建的GEM在二元活性反应矩阵相似性方面完全不同,但关于转录组数据归一化方法对代谢模型影响的一般推断是相同的,这也得到了基于基因分析的支持。
疾病转录组数据通常用于使用基因组尺度的代谢建模方法来比较控制和疾病状态,以破译与疾病相关的分子和代谢变化。从这个角度来看,为控制和疾病状态重建的GEM应该是一致和可比较的。综上所述,样本间归一化方法比样本内归一化方法在iMAT和INIT条件个性化GEM重建中,在反应数目和基因数目的范围以及归一化方法的聚类行为方面更为一致。基于疾病相关基因分析,以及基于ROSMAP代谢组数据分析与显著影响反应中包含的代谢物比较分析表明:样本间归一化方法优于样本内归一化方法。虽然FPKM和TPM是样本内归一化方法,理论上不适合基于样本的转录组定位到GEM。如果将不同样本的GEM进行比较,它们仍然可以检测到几种疾病相关的反应/通路/基因。因此,不能完全排除使用这些方法进行基于GEM的分析,但应该谨慎对待。样本内转录组数据归一化方法可以优选捕获更广泛的生物学相关扰动通路列表,但代价是更多的假阳性,而样本间归一化方法应该是选择获得更可靠的扰动通路列表,代价是更少的真阳性,特别是当研究重点是测试这些通路作为药物靶点或生物标志物时。
本研究有以下局限性。首先,基准测试集中在通过iMAT或INIT算法生成的个性化模型上,不包括任何涉及通量预测的比较。由于通量预测需要其他挑战,如定义生物目标函数。基于通量分布的转录组数据归一化方法的基准测试可以成为未来研究的主题。此外,为了提高研究结果的准确性和可泛化性,使用其他数据集和不同映射算法进行本研究中应用的分析是未来研究主题。只有通过使用模拟数据集将真正受影响的基因表达水平映射到GEM上,才能成为测试映射算法揭示真正受影响的反应/通路能力的另一个未来方面。这些基准研究将为研究人员在整合转录组数据和GEM的研究中选择转录组数据归一化方法提供见解。
参考文献
[1] Lüleci HB, Uzuner D, Cesur MF, İlgün A, Düz E, Abdik E, Odongo R, Çakır T. A benchmark of RNA-seq data normalization methods for transcriptome mapping on human genome-scale metabolic networks. NPJ Syst Biol Appl. 2024 Oct 24;10(1):124. doi: 10.1038/s41540-024-00448-z.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 12:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社