zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

机器学习模型有效性的十个技巧

已有 1141 次阅读 2024-10-28 19:51 |个人分类:科普|系统分类:科普集锦

机器学习模型有效性的十个技巧

机器学习(Machine LearningML)和人工智能(Artificial IntelligenceAI)技术的快速发展引发了各个领域的变革性革命。复杂算法、强大计算能力和丰富数据的融合将这些技术推向了创新的前沿,对生物医学、健康和技术等领域产生了重大影响。MLAI日益增长的重要性可以归因于它们在破译复杂模式、提取有价值见解和自动化决策过程方面无与伦比的能力。

人工智能/机器学习模型越来越多地应用于生物医学和健康数据。这些模型可用于揭示生物学机制、预测疾病结局和支持临床决策。例如,我们在蛋白质结构预测和临床决策支持方面取得了一些显著的成功,但也存在挑战和不太理想的结果。例如,在药物靶标预测中,IBM Watson在简化和加速药物发现过程方面没有达到预期。在Meta分析中,由于随机特征可替代性和Rashomon集合中存在许多高性能模型等问题,AI模型无法产生高质量的解释。

AIML最终都是工具。这些工具的有效性取决于人类用户构建和利用它们的能力。目前的文献提供了在化学科学、COVID-19数据等不同领域使用ML模型的一般指南,更多地关注输入数据、泄漏、可重复性、类不平衡、参数调优、合适度量标准选择。不幸的是,关于高质量训练数据集的创建、训练模型评估以及在现实世界中解释模型性能的校准,明显缺乏最佳实践。最近,Goh等人描述了10个技巧,作为填补这一空白的初步步骤(1),并且探讨了这些技巧对开发人员和用户的影响。

image.png

1 建立AIML模型有效性的10个技巧。数据技巧包括设计训练集和验证集的注意事项。处理技巧涉及特征选择、度量校准和数据的批量校正/规范化的方法。验证技巧侧重于用于评估模型所展示的学习质量的方法

技巧1:设计验证数据,覆盖足够多的各种挑战级别问题

技巧2:不要只报告整个数据结果。相反,要报告每个挑战级别的结果

技巧3:明确有价值的学习点

技巧4:考虑数据的代表性

技巧5:考虑批处理效果和跨样本归一化方法的影响

技巧6:不要仅仅依靠你的数据进行特征选择,务必使用先验知识

技巧7:校准受类比例不平衡影响的指标

技巧8:对最先进工具进行基准测试

技巧9:对零模型进行基准测试

技巧10:在异构数据集上验证模型

AI/ML模型采用鲁棒的模型评估技术可以节省时间、精力和资源,但也可以产生有用的见解并提高可信度。为了解决验证框架的缺乏,作者们提出了10个技巧,以作为生物医学科学中更好的模型验证实践的起点。除了关于如何验证模型的技巧之外,采用其他最佳实践,包括训练和验证数据之间没有泄漏,开放代码共享将有助于提高研究可重复性,增强模型可信度,并改善已发布模型。

参考文献

[1 Goh WWB, Kabir MN, Yoo S, Wong L. Ten quick tips for ensuring machine learning model validity. PLoS Comput Biol. 2024 Sep 19;20(9):e1012402. doi: 10.1371/journal.pcbi.1012402.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 



https://blog.sciencenet.cn/blog-571917-1457389.html

上一篇:DNFE:使用有向网络流熵识别生物过程临界点
下一篇:SPEAC-seq:细胞互作的功能CRISPR筛选
收藏 IP: 112.117.81.*| 热度|

2 郑永军 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 19:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部