||
单细胞基因组学似是而非的艺术
“大数据”基因组数据集的高维性使得降维技术在过滤噪声、实现可处理计算和促进探索性数据分析(EDA)方面得到了广泛的应用。表面上看,这种简化的目标是从数据中保存和提取局部和/或全局结构,用于生物推理。常用技术的试错应用导致了目前流行的工作流程,将初始降维到几十个维度,通常使用主成分分析(PCA),并使用t-SNE或UMAP进一步非线性降维到2个维度。特别是对于单细胞基因组学,这些嵌入广泛用于定性和定量EDA任务,主要分为4类应用(图1,“应用”):
图1 嵌入应用程序的必要属性。应用程序行表示生物任务,列表示哪些属性是必需的,即任务中假定其保存或表示的关键几何属性
•模态混合、集成和引用映射
嵌入用于直观地评估不同批次细胞之间的整合程度、混合程度或相似性,并比较整合/批次校正的方法。对于映射到参考数据集/嵌入的查询数据集,视觉效果同样提供了合并数据相似性或差异的评估。
•聚类验证和关系
可视化应用的范围从评估预定义聚类的存在和聚类之间的关系,到推断聚类的属性(例如,扩散或异质性),以及从2D空间生成聚类本身(例如,定义细胞类型或检测双元)。
•基于密度的视觉和标记分析
通过比较密度图中的轮廓位置和大小,以及基因表达强度或传播的变化,嵌入用于证明或测量不同条件下细胞群体的变化。
•轨迹推断和连续关系
嵌入应用范围从暗示或推断细胞之间的局部、连续关系和分配伪时间坐标,到使用2D坐标明确计算发育进程的大小和方向。
在这些应用中,固有的假设是保留局部和全局细胞属性,以及图1所描述的距离。对于每个应用程序,我们划分出哪些是“必要的”或关键的几何属性,每个任务固有地假定要表示(并保存)这些属性。基于前人的研究以及UMAP和t-SNE的目标函数,将“local”定义为最近邻关系,“global”定义为细胞群的邻居关系和属性(例如,细胞类型),以及点之间的“距离”,如欧几里得距离(L2范数)或曼哈顿距离(L1范数)。注意,保持距离意味着保持局部和全局属性。使用L2范数,因为它是UMAP/t-SNE的默认度量。L1更适合测量高维距离,特别是与其他Lk范数相比,并且通常应用于转录组数据,其性能与单细胞距离计算中的概率Jensen-Shannon散度相当。
然而,尽管这些方法的目标是保护局部和/或全局结构,但很少有理论或实证分析支持这些主张。例如,虽然流行的t-SNE和UMAP方法声称在低维中忠实地表示局部和/或全局结构,但有证据表明它们在这方面是失败的,并且为嵌入提供保证的定理依赖于许多在实践中不太可能坚持的假设,并且忽略了非线性约简之前PCA的预处理。
最近,Chari等人评估了单细胞基因表达的降维,首先研究包含图1列的必要属性的保存,然后评估这些嵌入在包含图1行的应用程序中的影响。具体分析结果可参见文献[1]。
参考文献
[1] Chari T, Pachter L. The specious art of single-cell genomics. PLoS Comput Biol. 2023 Aug 17;19(8):e1011288. doi: 10.1371/journal.pcbi.1011288.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-8 17:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社