PhenomicsJ的个人博客分享 http://blog.sciencenet.cn/u/PhenomicsJ

博文

Phenomics| 上海交通大学丁显廷团队提出基于Hashing的框架,提高高维单细胞数据细胞亚群的轮廓清晰度

已有 1593 次阅读 2023-5-15 21:41 |系统分类:论文交流

近日,《表型组学》(Phenomics)在线发表了上海交通大学个性化医学研究院丁显廷教授课题组名为A hashing-based framework for enhancing cluster delineation of high dimensional single-cell profiles的文章。

论文DOI链接:

link.springer.com/artic

论文PDF链接:

link.springer.com/conte

高维单细胞表达谱分析,如基于质谱流式细胞术(CyTOF)数据和单细胞RNA测序(scRNA-seq)数据的分析,为单细胞的蛋白质组学和基因组学提供了非凡的见解。研究表明,通过无偏倚的高维数据分析,可揭示细胞亚群之间新的功能多样性和异质性。为了控制技术噪声,提高数据质量,研究人员经常会采用质量控制、基因选择、归一化、批效应去除等预处理步骤。然而,现有的分析方法存在两个固有的挑战。首先,高维数据中存在一些在所有细胞上的表达值没有显著差异的变量,如CyTOF数据中的markers或scRNA-seq数据中的基因,而这些变量会干扰细胞的分群;其次,被检测到的细胞数量非常庞大以及这些干扰变量会导致细胞亚群的轮廓比较模糊,使得细胞亚群不能很好地进一步可视化。上述两个固有的挑战需要新的数据处理方法来提高细胞分群的准确性。该文提出了一种基于Hashing的框架来提高高维单细胞数据细胞亚群的轮廓清晰度。

基于Hashing的框架

该文提出的基于Hashing的框架是基于这样的一个假设:某一marker或基因的表达值在所有细胞之间没有显著差异可能是由该marker或基因与所有细胞之间的高相关性造成的,而这种高相关性倾向于将细胞聚在一起,并不是将它们分开。考虑到一个高度相关的向量可以分解为几个独立向量的线性组合,于是该文采用了与常用的降维方法不同的升维策略,将一个marker或基因扩展为更多维的隐变量。这些隐变量仅与部分细胞高度相关,促进了细胞的分群,同时提高了原始marker或基因信息的利用率。换句话说,与所有细胞高度相关的变量可以理解为与细胞亚群无关的变量,这些变量可进一步分解为与亚群相关的几个隐变量。但是,原始数据的维度被扩展到更高维度的同时也增加了计算成本。对此,该文提出的框架采用了两种基于位置敏感哈希(LSH)的方法,Flyhashing和Denseflyhashing,来提高计算效率,文中分别将这两种方法记作FHpre和dFHpre。

该框架首先归一化单细胞数据表达谱;然后将归一化后的单细胞表达谱利用一个随机的稀疏二进制投影矩阵扩展到20•k维(k是哈希长度)。为了降低计算成本,框架进而采用赢者通吃(WTA)或阈值为0的二值化策略进一步稀疏化扩展向量,得到的扩展向量保持了相同细胞亚群内的相似关系,增强了不同细胞亚群之间的异质性(图一)。

▲图一 本文提出的基于hashing的单细胞数据分析框架原理图

不同数据集上验证框架的有效性

进一步,该文从四个方面验证了所提框架的有效性。(1)利用local F1和Spearman相关性在4个scRNA-seq和2个CyTOF数据集上验证了FHpre和dFHpre可以保留数据的局部结构并能拉长细胞亚群之间距离;(2)将提出的框架应用于Phenograph和ACCENSE细胞分群算法,提升其分群精度,并通过可视化增强细胞亚群间的轮廓清晰度(图二)。(3)在两个公开的CyTOF数据集上,所提框架揭示了细胞亚群新的异质性(图三)。(4)所提框架不仅限于单细胞数据,而且可以扩展到计算机视觉数据集。

▲图二 FHpre增强细胞亚群间的轮廓清晰度


▲图三 FHpre发现了CyTOF数据中新的异质性细胞亚群

综上,该文提出了一个基于哈希的框架,以改善细胞亚群间的轮廓,并在模拟和真实实验数据集中证实了框架的有效性。该文所提框架可以适用于各种高维多参数数据集,如医学图像数据。此外,该框架为高维单细胞数据分析提供了通用模式,其他高效的数据预处理和细胞分群方法可以无缝集成到该框架中。

Abstract

Although many methods have been developed to explore the function of cells by clustering high dimensional (HD) single-cell omics data, the inconspicuously differential expressions of biomarkers of proteins or genes across all cells disturb the cell cluster delineation and downstream analysis. Here, we introduce a hashing-based framework to improve the delineation of cell clusters, which is based on the hypothesis that one variable with no significant differences can be decomposed into more diversely latent variables to distinguish cells. By projecting the original data into a sparse HD space, fly and densefly hashing preprocessing retain the local structure of data, and improve the cluster delineation of existing clustering methods, such as PhenoGraph. Moreover, the analyses on mass cytometry dataset show that our hashing-based framework manages to unveil new hidden heterogeneities in cell clusters. The proposed framework promotes the utilization of cell biomarkers and enriches the biological findings by introducing more latent variables. 

通讯作者 

丁显廷,生物医学工程学院分子与纳米医学平台主任,个性化医学研究院常务副院长。求是基金会“求是杰出青年学者奖”获得者;国家“优青”基金获得者;上海市“曙光计划”获得者;上海市科协“飞翔计划”获得者;上海交通大学“凯原十佳”教师获得者;世界经济论坛(World Economic

Forum, WEF)“青年科学家”;世界顶尖科学家论坛(World Laureates Forum, WLF)"青年科学家";美国南加州中华科学家工程师协会“青年科学家”;上海市优秀党外青年双创人才;微纳系统与工程(Microsystems & Nanoengineering, MINE) Young Scientists Award;国际实验室自动化与筛查协会(Society for Laboratory Automatiom and Screening, SLAS) Tony B. Academic Award。

Phenomics期刊简介

Phenomics是一本新创的同行评审国际期刊,聚焦表型组学前沿研究,搭建全球表型组学领域专家交流的国际平台,推动该领域相关的理论创新和学科发展。

本期刊拥有强大的国际编委团队,复旦大学金力院士担任主编,美国系统生物学研究所Leroy Hood院士、澳大利亚莫道克大学Jeremy Nicholson院士、德国莱布尼兹环境医学研究所Jean Krutmann院士、复旦大学唐惠儒教授共同担任副主编,复旦大学丁琛教授担任执行主编,另有来自全球多国的三十多位著名科学家共同组成编委团队,以及四十多位青年科学家组成青年编委团队。

我们诚挚地邀请广大科研人员投稿! 

Phenomics官网:springer.com/journal/43

投稿链接:editorialmanager.com/pn

编辑部邮箱:phenomics@ihup.org.cn、phenomics@fudan.edu.cn

欢迎关注Phenomics官方公众号

文章来源:人类表型组计划公众号



https://blog.sciencenet.cn/blog-3558836-1388138.html

上一篇:Phenomics| 福建医科大学公共卫生学院叶为民教授团队揭示影响妇女健康的生物标志物和疾病轨迹
下一篇:Phenomics| 杨晓波教授团队揭示血铜水平变化与多系统疾病表型的因果关系
收藏 IP: 117.148.120.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 00:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部