||
2021年11月1日,美国德克萨斯大学西南医学中心的周謇(Jian Zhou)与普林斯顿大学的Olga G. Troyanskaya在Nature Methods杂志上发表文章——“An analytical framework for interpretable and generalizable single-cell data analysis”。
这项工作提出了一个新的线性可解释(linearly interpretable)的计算框架,将线性方法的可解释和易于比较等优势与非线性方法的优点相结合。在这个框架内,作者引入了一种数据表示和可视化方法GraphDR (图1),以及一种将聚类、轨迹和表面估计统一起来并允许它们的置信集推理的结构发现方法StructDR(图2)。
单细胞组学技术近年来已成为重要的研究手段。因为单细胞数据的高噪音等特点,计算方法对于单细胞数据分析十分重要。可视化(Visualization)与轨迹推断(Trajectory inference)是常用的单细胞数据分析方法。 然而,目前常用的可视化方法例如t-SNE与UMA以及常用于分析细胞发育轨迹的轨迹推断方法尚有许多局限性,例如这些非线性计算方法通常在输出的可解释性(interpretability)方面有较多局限,并且难以用于不同数据集的比较从而为大规模整合分析数据集带来困难,以及不支持进行统计推断从而难以得到分析结果的显著性与置信区间或置信集。
相反,传统的线性方法例如主成分分析(PCA),在以上这些方面均具有优势,但在可视化等应用上,线性变换通常不能非常有效地在低维空间如二维平面上区分不同的细胞类型或者细胞状态。而这点正是t-SNE与UMAP等非线性算法得到更广泛应用的原因。随着近年来对单细胞数据集整合分析的需要不断增加,以及对细胞类型与状态的分析更加细致,研究者更加需要能够解决这些已有方法局限性的分析框架。
图1.简示GraphDR的工作原理和应用示例
作者认为线性方法在单细胞数据的低维表示上的困难主要来自于高水平的噪声:当每个单独的维度都有高噪声时,高维度对于捕捉细胞之间的相似性是必要的,这也使得低维线性表示变得低效。事实上,所有流行的用于单细胞数据的非线性方法都使用高维信息,这些信息通常由高维输入中细胞之间的距离表示,从而有效地减少了噪声的影响。因此作者推断,允许利用高维信息进行细胞间的信息共享,可以提高在低维度可视化中细胞状态表示的质量,同时保留线性空间的可解释性以及易于比较等优点。
图2. StructDR将聚类,轨迹和表面估计统一在同一框架并支持统计推断
基于这一出发点,用于可视化的GraphDR使用近邻图(nearest neighbor graph)为线性变换降噪(图1),而用于轨迹推断等结构分析的StructDR引入了密度脊估计(Density ridge estimation)的统计方法(图2)。两种方法在应用与基准测试中都有良好的表现, 同时兼具了传统线性方法的优点。GraphDR还支持超大规模的单细胞数据集(千万细胞级别)的分析,运行速度可快于UMAP十倍以上。并且两种方法都有清晰简明的数学解,易于进一步的统计分析和与下游计算方法的整合。对使用该方法感兴趣的读者可阅读原文和实现这些方法的quasildr软件包使用教程。
Code:https://github.com/jzthree/quasildr
附:UT Southwestern Jian Zhou课题组长期招聘博士后与各级别科研组员。课题组研究方向为计算生物学,基因组学与机器学习,致力于开发前沿的AI与机器学习方法用于解决生物学问题。目前的重点之一为运用深度学习与大数据理解基因组调控的机制, 解读基因组序列的”调控编码“。
感兴趣的同学可联系:
jian.zhou@utsouthwestern.edu.
课题组主页:
https://zhoulab.io.
相关论文信息:
https://doi.org/10.1038/s41592-021-01286-1
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 23:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社