||
Fuzzifier*:鲁棒且敏感的多组学数据分析
几十年来高通量测序和其他组学技术已经改变了生物研究,为复杂生物系统提供了前所未有的洞察。然而,由于固有的不确定性、技术偏差和测量不精确,对这些数据的解释仍然具有挑战性。这些问题包括通过统计(或生物信息学分析)得出稳健、可靠和值得信赖的结论,在生物医学科学所谓的“可重复性危机”的背景下,在心理学等其他科学中,以及最近在生态科学中,都得到了深入描述和讨论。传统的分析流程通常依赖于僵化的数学公式或任意选择的阈值,例如固定的倍数变化或显著性截断。虽然这些方法易于应用,但它们经常无法捕捉生物数据的逐渐变化和依赖上下文的行为。
在许多组学分析中,必须对大量定量值进行聚合、总结或离散化。这些操作通常将连续变化简化为二元类别,导致基于单一过度简化的分布或统计量做出决策。因此,可能会忽略微妙但具有生物学意义的改变,而预处理、归一化和建模选择所导致的极端情况则被过度强调。随着实验设计变得更加复杂和数据集维度更高,这个问题变得越来越严重,传统方法难以产生可解释和稳健的结果。
模糊逻辑为应对这些挑战提供了一种原则性的替代方案。与经典二值逻辑不同,在经典二值逻辑中命题要么为真要么为假,模糊逻辑允许变量在 0 到 1 之间的连续尺度上假设不同程度的信念。这种形式化方法能够明确表示不确定性,而不是忽略它们。生物测量值,如基因表达水平、蛋白质丰度或代谢物浓度,本质上具有连续性和噪声,这使得模糊逻辑特别适合它们的解释。尽管存在适当的数据标准化方法,但具体的标准化会严重影响效应大小的计算、相关显著性,从而影响结论。模糊化有助于避免推测性结果,并增加结论的信心。
在组学数据分析中,关键决策,例如基因是否表达、差异表达或突变等结果,通常被视为从这些范式推导出的二元结果。阈值或建模假设的微小变化可能产生截然不同的特征集,从而使生物学解释和可重复性变得复杂。模糊集提供了一个统一的框架来表达此类决策,用反映效应大小和置信度的隶属度代替了硬性分配,这些共同构成了“信念程度”。
在高通量数据分析中,最常用的分类方法可能是将基因分配到具有意义的语言类别,如“上调”、“下调”或“不变”。差异表达分析已成为解决这一任务的默认框架,主要通过假设检验方法实现,包括广泛使用的工具如 DESeq2、edgeR以及 Scanpy和 Seurat中的单细胞流程。这些方法为每个基因构建零假设,并依赖 p 值结合多重检验校正来得出分类决策。
然而,在这种背景下对零假设显著性检验的依赖正受到越来越多的批评。已经指出了其实际和概念上的局限性,包括 p 值对样本量的敏感性、模型假设的频繁违反以及统计学意义与生物学相关性的混淆。因此,统计上显著的结果可能与微不足道的效应量相对应,而生物学上相关的变化可能由于功效不足而被忽视。
另一种观点直接关注效应量,而不是假设拒绝。当可以获得基因层面的倍数变化分布时,可以量化并解释表达变化的幅度和方向,而无需引入零假设。在这种观点下,差异表达变成了在不确定性下估计和情境化效应量的问题,而不是检验效应的存在。这种范式已被提倡在多种场景中作为一种更易解释且与生物学更契合的表达分析方法。
一种补充的抽象概念源于考虑表达水平本身。根据定义,倍数变化描述的是表达状态之间的转换,而不是绝对数量。定义语言表达水平(例如,“低”、“中”、“高”)并将倍数变化解释为这些水平之间的转换,为差异表达提供了一种自然且直观的表示方式。这种观点与人类对生物系统的推理高度一致,并适用于基于规则和模糊逻辑的公式化方法。
尽管在概念上非常合适,但模糊逻辑在主流组学分析中的应用仍然有限。现有的应用主要集中在聚类、分类或基于规则的建模上,而像归一化和差异特征检测这样的核心分析步骤仍然由简洁方法主导。目前仍然缺乏一个整合模糊逻辑到组学分析工作流程的通用框架。
最近,Offensperger等人提出了一种将模糊集和模糊化引入组学数据分析的系统方法Fuzzifier*(图1,https://github.com/zimmerlab/fuzzifier)。虽然使用 miRNA 数据的高通量测序进行说明,但该框架适用于任何组学流程。作者们证明,数据的解释可以应用于数据分析的多个步骤,从而构建一个更稳健的分析框架。通过在整个分析流程中保留分类中的不确定性,这种方法旨在提高可解释性、稳健性和生物学相关性。

图1 分析工作流程概述。(a)显示了抽象交换图,(b)显示了用于识别癌症特异性特征的实例化,(c)显示了交换图中不同路径的 Petri 网工作流程。Petri 网中的位置和转换根据交换图中的箭头和数据类型进行着色
参考文献
[1] Felix Offensperger, Chuqiao Pan, Evi Sinn, Ralf Zimmer. Fuzzifier*: Robust and Sensitive Multi-omics Data Analysis. bioRxiv 2026.02.06.701074; doi: https://doi.org/10.64898/2026.02.06.701074
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-27 15:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社