||
不确定数据的贝叶斯聚类
按相似性分组在生物信息学中有多种应用。例如,根据任何分子测量对样本进行聚类可能有助于确定疾病的亚群。在基因表达数据中,基因聚类可能有助于推断基因功能和调控关系。聚类也可以用来聚集疾病本身。例如,免疫介导性疾病(IMD)已被证明具有共同的遗传基础,因此IMD可以根据这些共同的模式聚类。
常用的k-means和mclust等方法假设被聚类的观测值是无误差的,或者任何误差都是相同分布的。在现实中,我们经常不仅有数据点本身,而且还有每个观测值的不确定性度量,如果加以利用,它有可能提高聚类的准确性。例子包括由多个不确定专家生成的数据,网络聚类的边缘具有表示不确定性的关联分数,或者单细胞多组学数据中的细胞类型注释问题,其中不同的组学层可能将细胞分配给不同的簇。在最近的一项工作中,Nicholls等人关注与不确定性相关的定量数据,例如随机测量误差或使用多次测量(如三个血压读数的平均值)可能会产生不确定性。需要明确的是,聚类方法已经捕获了不确定性的一个来源,即聚类方差,它描述了同一聚类中不同对象位置的可变性。在这里,当讨论不确定性时,将重点关注每个观测值的不确定性,它可能在观测值和/或特征之间变化。在这种情况下,聚类方差将描述潜在观测值的位置可变性,可以认为它代表了以一些测量的不确定性观察到的对象的“真实”位置。
已经提出了多种方法来处理聚类时观测值中的不确定性,包括计算考虑不确定性的观测值之间的距离,聚类从每个不确定观测值相关的分布中抽样的代表性对象,以及通过对每个不确定观测值相关的分布进行积分来调整似然。
一般来说,在聚类方法中,贝叶斯方法提供了一些优势,因为它们能够传达总体聚类的不确定性,特别是同时推断聚类的数量k。在这里,作者们建议将贝叶斯狄利克雷过程混合模型的标准模型适应于数据点具有相关不确定性的设置,即“狄利克雷过程混合不确定性(DPMUnc)”(图1,https://github.com/chr1swallace/DPMUnc)。这种适应以前还没有被探索过。
图1 高斯混合模型板图。当K趋近无穷时,这是狄利克雷过程高斯混合模型。在图中,每个矩形对应一组变量,底部的文字显示了整个模型需要的数据个数。圆圈表示随机变量,如果观察到随机变量,则用阴影表示。没有圆圈的变量是模型的超参数
作者们证明了考虑不确定性可以改变返回的聚类解决方案,并展示了它在一系列模拟数据集和实际应用中的性能。首先,作者们考虑使用GWAS汇总统计来聚类IMD,这是一个与每个观测值相关的不确定性通常随着研究样本量而系统变化的问题。其次,使用基因表达数据对IMD患者进行分类,这有助于识别疾病亚型或预测对治疗的反应。然而,对所有20,000个基因进行聚类可能在计算上代价高昂,并且可能根据与疾病无关的结构(如性别或年龄)对患者进行分组。对与疾病或生物过程相关的基因表达的研究有时会产生基因标记,即与疾病或过程相关的具有共同基因表达模式的基因列表。作者们提出了一种基因特征的汇总度量,它捕获了平均特征表达及其方差,并表明DPMUnc允许根据一个或多个特征对患者进行聚类。
考虑不确定性可以改变聚类解决方案。作者们用模拟数据说明了DPMUnc推断的聚类均值如何更接近不确定性较低的点,而mclust和k-means等方法将聚类均值置于所有点的经验均值附近,以及DPMUnc如何将潜在数据点移向推断的聚类均值,从而导致更小的聚类方差。在一个更复杂的数据集中,这可能会产生连锁反应,可能会排除更远的点加入聚类,或者将一个聚类分成两个。在一系列模拟数据集上,DPMUnc优于现有方法,并且后验相似性值被证明具有相对较好的校准性。因此,如果两个点的后验相似性为p,这大致可以转化为它们在真实聚类中处于同一聚类的概率p。因为DPMUnc假定特征之间是独立的,所以它的使用很可能被限制在相对低维的数据中。在这里显示的实际数据示例中,作者们假设遗传特征之间存在有限的依赖关系,因为这些遗传特征是使用PCA推导出来的,而转录组特征之间存在有限的依赖关系,因为不同特征之间没有基因重叠。
通过GWAS对疾病进行聚类,重现了免疫介导疾病中已知的分裂和关系。它还建议进一步使用不确定性聚类,例如使用多基因风险评分集对个体进行聚类,其中PRS系数中的不确定性可以被利用而不是被忽略。
基因标记可以在一个具有理想实验条件的数据集上定义,例如干扰素-β作用的时序研究。然后,要在结构更复杂的新数据集上使用它们,例如具有多种免疫介导疾病的患者的数据集,通常需要某种形式的降维。例如在新数据集上使用WGCNA或PCA,要么只使用标签中的那些基因,要么使用所有基因,希望PCA中的一个WGCNA模块或变量与标签一致。作者们提出的跨标签总结基因表达的方法扩展了标签的可能用途,并且由于标签在具有更复杂结构的数据集上可能较弱,因此考虑标签的可变性可能至关重要。在检查的九个例子中的两个中,忽略不确定性导致与疾病状态无关的聚类。特别是,它允许根据多个特征同时对患者进行聚类。在Ferreira数据集的情况下,这导致了两个疾病和对照组的更清晰的分离,强调了考虑多个标签的潜在效用,这些标签提供了相同数据的多个视图。
参考文献
[1] Nicholls K, Kirk PDW, Wallace C. Bayesian clustering with uncertain data. PLoS Comput Biol. 2024 Sep 3;20(9):e1012301. doi: 10.1371/journal.pcbi.1012301.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 09:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社