||
深度学习助力单细胞数据分析
在人工智能(Artificial Intelligence,简称AL)研究领域,深度学习(Deep Learning,简称DL)简单的定义为使用深度神经网络为工具的机器学习(Machine Learning,简称ML)算法。AI、ML和DL之间关系以及内涵分别如图1和图2所示。
图1 人工智能分支
图2 AI、ML和DL概念
一方面。DL是AI研究领域的重要突破。另一方面,单细胞测序技术(single-cell sequencing technology)也是基因测序技术的重要突破。AlphaFold2在蛋白质结构预测方面的能力,使得DL在单细胞数据分析的应用成为可能。
目前,在单细胞数据分析方面,DL可以进行单细胞聚类分析、批次矫正和缺失值填充等。那么,DL应用于单细胞数据的研究进展、局限、最佳实践和展望如何呢?可以参见评论性文章《Deep learning shapes single-cell data analysis》(图3)。
图3 评论文章:深度学习助力单细胞数据分析
DL应用于单细胞分析的最佳实践方面,外部生物知识或数据可以作为先验知识整合到模型中。现实情况下,先验知识往往比较缺乏,因此模型容易出现过度拟合和性能不好的现象。因此,建议DL模型采用半监督和自我监督的学习方式。其次,在设计DL模型时候,开发者需要提醒用户DL模型的适用范围。当然,泛化能力强的模型最好。再次,DL模型最好提供结构良好的开源代码、用户指南和清晰的用户文档,使用模型的步骤越详细越好(接近傻瓜式)。最后,如果有多种DL方法应用于相同的数据分析问题,最好要有全面的比较分析,为用户挑选某一数据分析问题的基准方法。
DL应用于单细胞分析的局限性方面,DL方法通常需要大数据和计算资源来进行训练,由于数据噪声、参数设置和新的输入数据,DL模型可能得不到鲁棒性结果。其次,大部分DL模型都是黑箱子模型,缺乏可解释性。再次,大部分DL工具需要大量的计算机技巧才能够使用。因此,在不同生物系统里,DL方法开发及其广泛应用之间存在一定差距。
未来,DL应用于单细胞分析主要体现在以下几个方面。首先,单细胞生物学领域,注释数据有限,亟待开发能在少样本数据中训练的DL模型。其次,开发可解释性的DL模型有助于深入理解生物机理。再次,在开发DL模型时候,需要考虑降低DL模型应用与单细胞数据分析的门槛,即使没有任何编程经验的用户也能够使用DL模型进行单细胞数据分析。第四,在单细胞数据分析过程中,所开发的DL模型应该具有其他方法所不能实现的优势。最后,DL模型正逐步从预测型、解释型转变为行动型(例如医学治疗建议)。
后话
深度学习不仅仅可以应用单细胞数据分析,而且在其他生物学领域也开展了相关的应用。然而,深度学习只是一个工具,引导深度学习挖掘具有生物学意义的知识才是关键。
参考文献
[1] Ma Q, Xu D. Deep learning shapes single-cell data analysis. Nat Rev Mol Cell Biol. 2022;1-2. doi:10.1038/s41580-022-00466-x
[2] https://www.zhihu.com/question/57770020
[3] https://www.zhihu.com/question/30545893
以往推荐如下:
1. 因果推理综述推荐一篇
2. 生物学家的机器学习指南
3. 基础模型的机遇与风险
4. 一份单细胞数据分析教程
8. 国外知乎:Quora
11. 预印本知多少?
14. mRNA表达无法取代蛋白质表达
15. scIB:单细胞数据融合基准框架
16. 临床医疗维修店铺
18. 怎样做好一项研究?
19. 怎样做开题报告?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 04:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社