||
利用模糊聚类揭示基因调控网络动态
高通量测序技术通过实现全基因组基因表达的探究和对调控相互作用的深入评估,重塑了生物系统研究,促成了基因间相互作用的机制假说。早期方法聚焦于静态基因调控网络(GRNs)。单细胞和空间(转录组学)技术的快速发展,使研究焦点从样本范围的平均转向基于细胞异质性和空间环境的表达梯度。这些新数据集的技术特性也促使人们重新评估使用典型机器学习和数据科学方法获得的输出的鲁棒性和可重复性。
利用群落检测算法(如 Louvain和 Leiden)聚类单细胞 RNA-seq(scRNA-seq)数据集,是当前转录组学分析中的一个基础性初步步骤。然而,这些算法本质上是随机的,即对同一输入重复运行,部分原因是随机种子的初始化,导致不同的聚类解。这种随机性带来了解释上的变异性,直接影响后续分析。标准分析流程如 Seurat和 Monocle通常依赖单一聚类解,隐含假设它捕捉了底层的生物结构。忽视聚类变异,可能导致罕见或过渡性细胞状态被遗漏。此类细胞在多次运行中常表现出不稳定但信息丰富、稳定且可重复的分配,反映出真正的生物可塑性,而非技术噪声。
稳健可靠聚类的目标是恢复真实的生物结构,同时最大限度地减少对技术伪影(如随机噪声或测序偏差/随机性)的敏感性。传统的以群聚为中心的指标,如兰德指数,关注整体划分相似性,忽视了单个细胞层面的不稳定性评估。元素中心一致性(ECC)量化了每个点(在此语境中为细胞)在重复聚类运行中被分配的一致性。这种以细胞为中心的视角使得识别具有可重复但分配不一致/模糊的细胞成为可能,这些分配可能反映了生物学意义上的异质性。对于一组迭代划分,高中位数 ECC 表明聚类忠实地捕捉了生物信号,而非算法伪影。然而,假设细胞唯一属于单一稳定簇的假设在生物系统中常常失败,因为过渡性或多表型状态较为常见。例如,Gribben 等人报告了在晚期慢性肝病期间,通过迭代亚群类并对不稳定细胞的管理,出现了双表型肝细胞-胆管细胞细胞。
为了系统地捕捉和刻画单细胞分辨率聚类中的细胞概率赋值,Kollyfas等人介绍了 Flufftail(Fuzzy Logic Unifying Framework, 通过集成学习总结的转录架构,图1,https://github.com/Core-Bioinformatics/Flufftail),这是一个稳健且可扩展的 R 软件包,配有交互式界面。通过汇总多个随机种子的结果,Flufftail 捕捉了每个细胞成员概率的聚类变异、ECC 评分、通过多数投票实现的稳健硬集群分配,以及捕捉共聚行为的共识矩阵。这些输出使得识别和表征具有不稳定簇分配的模糊细胞成为可能,这些簇通常在过渡态中得到富集。该论文的核心假说是,在一个本应稳定(高中位数)聚集的细胞中,少数细胞存在残留不稳定性,反映为低 ECC,反映的是生物学上有趣的可塑性,而非技术噪声。现有依赖共识聚类的方法,如 SC3和 scALPO,在聚类层面量化不确定性,但忽视了细胞模糊性对下游调控的影响。这一差距至关重要,因为新兴证据强调细胞可塑性是治疗反应动态行为和变异性的驱动因素。

图1 Flufftail 管道概述,展示单细胞分辨率下调控动态的案例研究。关键分析步骤包括反复随机聚类、模糊细胞的识别、主要调控枢纽的优先排序以及基因调控网络(GRN)动态的推断。(A) 经过重复随机聚类的 ECC 加权 UMAP,ECC 评分最低的细胞(绿色/紫色梯度)定位于两种主要细胞类型的桥梁上,体现了细胞状态可塑性,作为双表型细胞。(B) 分解伪时间,显示注释细胞类型相对于计算识别簇的分布。(C)UMAP 突出采样于两个稳定簇中心点及其中点(即不稳定细胞)周围的细胞,定义用于下游分析的主要过渡区。(D) 沿低 ECC 转变排序的前 20 个差异表达基因在伪时间上的表达梯度热图。(E) 基因模块 UMAP 突出显示了四个 Flufftail 识别的主要调控枢纽(KLF6、SERPINE1、CREB5 和 FGF13),在双表型肝细胞-胆管细胞中转录上调(KLF6 和 SERPINE1 被实验验证为核心可塑性标记)。(F)通过基因富集分析揭示动态基因的途径驱动方法。(G)展示 GRN 动力学的概念,重点关注拓扑变化(重布线事件)和相互作用强度的变化(与边宽成正比)
参考文献
[1] Rafael Kollyfas, Marta Cagna, Alexandra M. Nicaise, Ludovic Vallier, Irina Mohorianu. Unveiling Gene Regulatory Network Dynamics using Fuzzy Clustering. bioRxiv 2025.12.31.697266; doi: https://doi.org/10.64898/2025.12.31.697266
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-11 11:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社