xiaokeshengming的个人博客分享 http://blog.sciencenet.cn/u/xiaokeshengming

博文

《自然—方法》:周謇等提出单细胞组学探索性数据分析的新框架

已有 3161 次阅读 2021-11-9 06:45 |个人分类:小柯生命|系统分类:论文交流

2021年11月1日,美国德克萨斯大学西南医学中心的周謇(Jian Zhou)与普林斯顿大学的Olga G. TroyanskayaNature Methods杂志上发表文章——“An analytical framework for interpretable and generalizable single-cell data analysis”。


这项工作提出了一个新的线性可解释(linearly interpretable)的计算框架,将线性方法的可解释和易于比较等优势与非线性方法的优点相结合。在这个框架内,作者引入了一种数据表示和可视化方法GraphDR (图1),以及一种将聚类、轨迹和表面估计统一起来并允许它们的置信集推理的结构发现方法StructDR(图2)。


923.jpg


单细胞组学技术近年来已成为重要的研究手段。因为单细胞数据的高噪音等特点,计算方法对于单细胞数据分析十分重要。可视化(Visualization)与轨迹推断(Trajectory inference)是常用的单细胞数据分析方法。 然而,目前常用的可视化方法例如t-SNE与UMA以及常用于分析细胞发育轨迹的轨迹推断方法尚有许多局限性,例如这些非线性计算方法通常在输出的可解释性(interpretability)方面有较多局限,并且难以用于不同数据集的比较从而为大规模整合分析数据集带来困难,以及不支持进行统计推断从而难以得到分析结果的显著性与置信区间或置信集。

 

相反,传统的线性方法例如主成分分析(PCA),在以上这些方面均具有优势,但在可视化等应用上,线性变换通常不能非常有效地在低维空间如二维平面上区分不同的细胞类型或者细胞状态。而这点正是t-SNE与UMAP等非线性算法得到更广泛应用的原因。随着近年来对单细胞数据集整合分析的需要不断增加,以及对细胞类型与状态的分析更加细致,研究者更加需要能够解决这些已有方法局限性的分析框架。

 

924.jpg


图1.简示GraphDR的工作原理和应用示例


作者认为线性方法在单细胞数据的低维表示上的困难主要来自于高水平的噪声:当每个单独的维度都有高噪声时,高维度对于捕捉细胞之间的相似性是必要的,这也使得低维线性表示变得低效。事实上,所有流行的用于单细胞数据的非线性方法都使用高维信息,这些信息通常由高维输入中细胞之间的距离表示,从而有效地减少了噪声的影响。因此作者推断,允许利用高维信息进行细胞间的信息共享,可以提高在低维度可视化中细胞状态表示的质量,同时保留线性空间的可解释性以及易于比较等优点。


925.jpg


图2. StructDR将聚类,轨迹和表面估计统一在同一框架并支持统计推断


基于这一出发点,用于可视化的GraphDR使用近邻图(nearest neighbor graph)为线性变换降噪(图1),而用于轨迹推断等结构分析的StructDR引入了密度脊估计(Density ridge estimation)的统计方法(图2)。两种方法在应用与基准测试中都有良好的表现, 同时兼具了传统线性方法的优点。GraphDR还支持超大规模的单细胞数据集(千万细胞级别)的分析,运行速度可快于UMAP十倍以上。并且两种方法都有清晰简明的数学解,易于进一步的统计分析和与下游计算方法的整合。对使用该方法感兴趣的读者可阅读原文和实现这些方法的quasildr软件包使用教程。

 

Code:https://github.com/jzthree/quasildr

 

附:UT Southwestern Jian Zhou课题组长期招聘博士后与各级别科研组员。课题组研究方向为计算生物学,基因组学与机器学习,致力于开发前沿的AI与机器学习方法用于解决生物学问题。目前的重点之一为运用深度学习与大数据理解基因组调控的机制, 解读基因组序列的”调控编码“。


感兴趣的同学可联系: 

jian.zhou@utsouthwestern.edu

课题组主页:

https://zhoulab.io.

 

相关论文信息:

https://doi.org/10.1038/s41592-021-01286-1




https://blog.sciencenet.cn/blog-3423233-1311567.html

上一篇:《神经元》:董欣中团队/张俊明团队合作探究自发性疼痛的来源和治疗
下一篇:《自然》:国际大规模合作研究绘制鹰嘴豆遗传变异的完整图谱
收藏 IP: 183.198.205.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 23:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部