博文

并非每个基因都特殊：一个简单规则来控制高通量测序数据分析的错误发现率

已有 2483 次阅读 2025-12-20 15:21 |个人分类:科普|系统分类:科普集锦

并非每个基因都特殊：一个简单规则来控制高通量测序数据分析的错误发现率

高通量测序 (HTS) 已在生物科学领域广泛应用于健康和疾病的研究。目前存在多种方法，包括使用通用“条形码”基因（例如 16S rRNA 基因高变区、cpn60、rpoB）的扩增子测序、宏基因组鸟枪法测序、批量和单细胞 RNA 测序以及宏转录组测序。确定区分两种不同生物学条件的分类单元、基因或功能是此类分析的常见终点，并且已经开发出多种工具来实现这一目标。

差异表达/丰度分析工具通常以每个基因或分类单元在所有样本中的读数表作为输入。实际上，这个计数表并不代表给定特征在其原始环境中的绝对丰度。由于测序工作流程中的几个步骤本质上具有组成性，计数代表相对丰度。最终，只有一小部分测序文库被加载到测序流细胞上，而测序流细胞本身来源于少量每个原始DNA提取物，而原始样本本身只是一小部分。所有关于研究社区真实生物学尺度的信息都被丢失，所有下游分析都对此信息一无所知，无论使用何种工具。最终，来自同一数据集的样本之间测序深度的变化与系统规模脱钩且无关。

大多数分析涉及在流程中对读取计数表进行某种形式的标准化，以解释测序深度的差异；然而，这无意中引入了一个关键问题。标准化通常对系统规模做出不准确的假设。此类假设的例子包括：i) 观察数据的几何平均值准确反映了系统规模；ii) 所有样本的总微生物丰度相同；iii) 样本内的某些特征代表一个合适的参考，可用于缩放其他特征；iv) 在样本的不同部分之间，规模保持不变。最近的研究表明，违反这些假设会使假发现率（FDR）高到被认为是不合理的程度；事实上，在某些情况下，真正的FDR可能超过75%。

FDR控制不佳是许多使用HTS数据的实验设计中一个普遍存在的问题；事实上，高维生物数据中FDR控制不佳的问题至少可以追溯到微阵列数据分析。在分析大量转录组数据时，FDR控制不佳是一个长期存在的问题，微生物组数据中也出现了类似的问题。为了应对这一问题，采用双阈值方法，其中同时使用P值和对数倍数变化（L2FC）来帮助减少阳性识别的数量。Schurch等人使用一个大型大量转录组数据集为转录组数据提供了具体指导。这种双阈值方法在HTS文献中非常普遍，其采用得到了非常有用的火山图的增强，该图现在已成为许多使用HTS领域的标准工具。

然而，在双重截断方法首次使用后不久，它被证明无法控制FDR。有几种原因导致这种情况。首先，两种方法的方差假设之间存在不匹配；L2FC截断假设所有基因具有相同的方差，而统计检验使用基因特异性方差来确定P值。思考这个问题的另一种方式是，基因在组间有显著差异但又不理想，有两种方式；它可以具有低方差和小L2FC，或者它可以具有大方差和大的L2FC。其次，虽然广泛使用的Benjamini-Hochberg（BH）程序控制了所有拒绝基因的FDR，但它并不一定在任何基因子集上这样做，事实上，假阳性在任何这样的子集中往往被过度代表。处理第一个问题的一种方法是收缩以提供更好的方差估计，并且收缩在流行工具中实现，如DESeq2，以及limma。然而，没有办法处理第二个问题，正如上述许多（如果不是全部）工具表现出膨胀的FDR所明显的那样。

为了解决FDR控制不佳的重要问题，Nixon等人提出了一种基于常规归一化方法的替代方案，通过一个名为“尺度依赖推理”（SRI）的框架引入了尺度模型的概念。这些尺度模型已被整合到ALDEx2 R包中，这是一个贝叶斯工具箱，用于对测序计数数据中的潜在变化进行建模，并估计log2倍数变化（L2FC）。最初，ALDEx2对从Dirichlet分布中抽取的许多模型化计数数据实例应用了中心对数比（CLR）转换；然而，这样做时，它做出了一个隐含但错误的假设，即系统尺度等同于用于计算CLR的几何平均值的倒数。在尺度模型被整合到ALDEx2之后，系统尺度在每个单独的Dirichlet实例中直接进行建模，承认尺度点估计实际上几乎肯定会是错误的这一现实。通过考虑尺度不确定性，这一修改将原始ALDEx2算法转换为一个称为“尺度模拟随机变量”的模型。ALDEx3是ALDEx2方法的最新实现；ALDEx3基于线性模型，在仍然采用贝叶斯方法进行建模和分析的同时，需要更少的计算资源。

Konnaris和同事们通过将ALDEx3应用于迄今为止最大的配对微生物组-微生物丰度数据集之一，证明了比例模型的实用性，并将其性能与最近一项备受关注的研究中的机器学习（ML）模型进行了比较。这些ML模型在预测微生物负荷时未能推广到来自mutt数据库的新数据集，并且在提高比例外行ALDEx3所达到的FDR方面也未能取得进步。相比之下，当ALDEx3比例模型应用于枪炮法宏基因组数据和16S rRNA扩增子测序数据时，实现了更优的FDR，以及更好的阳性预测值和阴性预测值。当ALDEx2应用于各种高通量测序（HTS）数据集时，也报告了类似的发现；应用SRI框架时，实现了对FDR的更好控制。

先前强调SRI框架优势的研究主要集中在扩增子测序和鸟枪宏基因组数据集，或者仅限于单个转录组数据集。最近，Santos等人通过测试ALDEx2及其更快、内存效率更高的继任者ALDEx3在不同RNA-seq数据集上的性能来扩展先前的研究，这些数据集涵盖了诸如批量转录组（来自实验室来源和临床样本）、单细胞和宏转录组测序等方法。将这两种SRI实现与广泛使用的基于归一化的工具在敏感性和FDR方面进行比较，并强调了研究人员在分析高通量测序数据时应考虑的两个重要权衡。此外，量化了ALDEx2和ALDEx3模拟的尺度不确定性程度与所需的最小倍数变化之间的关系，这是在进行基于尺度模型的差异表达分析时需要考虑的关键因素。这项分析为如何构建合适的尺度模型提供了有力指导，这些模型为高通量测序数据分析提供了更好的FDR控制。

参考文献

[1] Scott J. Dos Santos, Andreea C. Murariu, Justin D. Silverman, Gregory B. Gloor. Not every gene is special: one simple rule to control the false discovery rate when analysing high-throughput sequencing data bioRxiv 2025.11.28.690516; doi: https://doi.org/10.1101/2025.11.28.690516

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC