zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

深度学习助力单细胞数据分析

已有 3401 次阅读 2022-3-16 11:56 |个人分类:科普|系统分类:科普集锦

深度学习助力单细胞数据分析

 

在人工智能(Artificial Intelligence,简称AL)研究领域,深度学习(Deep Learning,简称DL)简单的定义为使用深度神经网络为工具的机器学习(Machine Learning,简称ML)算法。AIMLDL之间关系以及内涵分别如图1和图2所示。

 

image.png  

1 人工智能分支

 

image.png

2 AIMLDL概念

 

一方面。DLAI研究领域的重要突破。另一方面,单细胞测序技术(single-cell sequencing technology)也是基因测序技术的重要突破。AlphaFold2在蛋白质结构预测方面的能力,使得DL在单细胞数据分析的应用成为可能。

 

目前,在单细胞数据分析方面,DL可以进行单细胞聚类分析、批次矫正和缺失值填充等。那么,DL应用于单细胞数据的研究进展、局限、最佳实践和展望如何呢?可以参见评论性文章《Deep learning shapes single-cell data analysis》(图3)。

 

image.png

3 评论文章:深度学习助力单细胞数据分析

 

DL应用于单细胞分析的最佳实践方面,外部生物知识或数据可以作为先验知识整合到模型中。现实情况下,先验知识往往比较缺乏,因此模型容易出现过度拟合和性能不好的现象。因此,建议DL模型采用半监督和自我监督的学习方式。其次,在设计DL模型时候,开发者需要提醒用户DL模型的适用范围。当然,泛化能力强的模型最好。再次,DL模型最好提供结构良好的开源代码、用户指南和清晰的用户文档,使用模型的步骤越详细越好(接近傻瓜式)。最后,如果有多种DL方法应用于相同的数据分析问题,最好要有全面的比较分析,为用户挑选某一数据分析问题的基准方法。

 

DL应用于单细胞分析的局限性方面,DL方法通常需要大数据和计算资源来进行训练,由于数据噪声、参数设置和新的输入数据,DL模型可能得不到鲁棒性结果。其次,大部分DL模型都是黑箱子模型,缺乏可解释性。再次,大部分DL工具需要大量的计算机技巧才能够使用。因此,在不同生物系统里,DL方法开发及其广泛应用之间存在一定差距。

 

未来,DL应用于单细胞分析主要体现在以下几个方面。首先,单细胞生物学领域,注释数据有限,亟待开发能在少样本数据中训练的DL模型。其次,开发可解释性的DL模型有助于深入理解生物机理。再次,在开发DL模型时候,需要考虑降低DL模型应用与单细胞数据分析的门槛,即使没有任何编程经验的用户也能够使用DL模型进行单细胞数据分析。第四,在单细胞数据分析过程中,所开发的DL模型应该具有其他方法所不能实现的优势。最后,DL模型正逐步从预测型、解释型转变为行动型(例如医学治疗建议)。

 

后话

深度学习不仅仅可以应用单细胞数据分析,而且在其他生物学领域也开展了相关的应用。然而,深度学习只是一个工具,引导深度学习挖掘具有生物学意义的知识才是关键。

 

参考文献

[1] Ma Q, Xu D. Deep learning shapes single-cell data analysis. Nat Rev Mol Cell Biol. 2022;1-2. doi:10.1038/s41580-022-00466-x

[2] https://www.zhihu.com/question/57770020

[3] https://www.zhihu.com/question/30545893

 

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

15. scIB:单细胞数据融合基准框架

16. 临床医疗维修店铺

17. NAguideR:填充蛋白质组学数据缺失值

18. 怎样做好一项研究?

19. 怎样做开题报告?

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1329677.html

上一篇:怎样做开题报告?
下一篇:Any RNA
收藏 IP: 183.225.51.*| 热度|

3 李宏翰 罗春元 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 04:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部