zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

PARE:任何基于距离降维方法来去除混杂因子的框架

已有 837 次阅读 2024-8-15 12:26 |个人分类:科普|系统分类:科普集锦

PARE:任何基于距离降维方法来去除混杂因子的框架

主坐标分析(PCoA)t分布随机邻域嵌入(t-SNE)和均匀流形逼近与投影(UMAP)等降维工具被广泛用于高维数据的探索。这些方法都在欧几里得空间中识别低维嵌入,并保留原始空间中的信息。这些方法已被证明可以揭示复杂的模式,包括单细胞RNA测序(scRNA-seq)数据中的细胞谱系和脑容量数据中的神经发育变化。然而,在目前的形式下,这些方法没有考虑协变量,并且已知会受到诸如批次等混杂因子的很大影响。

研究人员已经开发了几个扩展的降维工具,旨在消除混杂因子的影响。对于主成分分析(PCA),研究者开发了对混杂变异进行调整的PCA。调整后的PCoA (aPCoA)检验主坐标上线性模型的残差,主坐标与指定的混杂变量正交。投影t-SNEt-SNE优化的每次迭代中对嵌入进行正交,以调整批处理效果。另一种方法通过使用t-SNE基于一个批次构建参考嵌入,然后将其他批次的观测值投影到参考上来解决批次效应。迄今为止,在基于距离的降维方法中对混杂因子的调整需要修改每个框架来解决这个特定的问题。此外,包括UMAP在内的许多方法尚未扩展到解决混淆问题。

最近,Chen等人开发了部分嵌入(partial embeddingPAREhttps://github.com/andy1764/PARE)作为一种可推广的框架,用于从任何基于距离的降维方法中去除混杂因子。作者们通过使用协变量调整的aPCoA差异作为降维方法的输入来实现这一点。当原始距离为欧几里得时,可以通过将调整后的主坐标作为输入数据来获得相同的结果。将这些协变量调整后的降维结果称为部分嵌入(PARE)。这些PARE保持了与原始空间的成对距离,同时消除了混杂效应。PARE可以通过广泛的降维方法生成,包括t-SNEUMAP、拉普拉斯特征映射、扩散图嵌入、LargeVisTriMapForceAtlas2等。具体而言,将PARE框架应用于t-SNEUMAP,以开发部分t-SNE (p-t-SNE)和部分UMAP (p-UMAP)

参考文献

[1] Chen AA, Clark K, Dewey BE, et al. PARE: A framework for removal of confounding effects from any distance-based dimension reduction method. PLoS Comput Biol. 2024;20(7):e1012241. doi:10.1371/journal.pcbi.1012241

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1446633.html

上一篇:单细胞精度水平用统计推断揭示基因功能
下一篇:REUNION:从单细胞多组学数据中推断转录调控网络
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 03:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部