||
机器学习模型有效性的十个技巧
机器学习(Machine Learning,ML)和人工智能(Artificial Intelligence,AI)技术的快速发展引发了各个领域的变革性革命。复杂算法、强大计算能力和丰富数据的融合将这些技术推向了创新的前沿,对生物医学、健康和技术等领域产生了重大影响。ML和AI日益增长的重要性可以归因于它们在破译复杂模式、提取有价值见解和自动化决策过程方面无与伦比的能力。
人工智能/机器学习模型越来越多地应用于生物医学和健康数据。这些模型可用于揭示生物学机制、预测疾病结局和支持临床决策。例如,我们在蛋白质结构预测和临床决策支持方面取得了一些显著的成功,但也存在挑战和不太理想的结果。例如,在药物靶标预测中,IBM Watson在简化和加速药物发现过程方面没有达到预期。在Meta分析中,由于随机特征可替代性和Rashomon集合中存在许多高性能模型等问题,AI模型无法产生高质量的解释。
AI和ML最终都是工具。这些工具的有效性取决于人类用户构建和利用它们的能力。目前的文献提供了在化学科学、COVID-19数据等不同领域使用ML模型的一般指南,更多地关注输入数据、泄漏、可重复性、类不平衡、参数调优、合适度量标准选择。不幸的是,关于高质量训练数据集的创建、训练模型评估以及在现实世界中解释模型性能的校准,明显缺乏最佳实践。最近,Goh等人描述了10个技巧,作为填补这一空白的初步步骤(图1),并且探讨了这些技巧对开发人员和用户的影响。
图1 建立AI或ML模型有效性的10个技巧。数据技巧包括设计训练集和验证集的注意事项。处理技巧涉及特征选择、度量校准和数据的批量校正/规范化的方法。验证技巧侧重于用于评估模型所展示的学习质量的方法
技巧1:设计验证数据,覆盖足够多的各种挑战级别问题
技巧2:不要只报告整个数据结果。相反,要报告每个挑战级别的结果
技巧3:明确有价值的学习点
技巧4:考虑数据的代表性
技巧5:考虑批处理效果和跨样本归一化方法的影响
技巧6:不要仅仅依靠你的数据进行特征选择,务必使用先验知识
技巧7:校准受类比例不平衡影响的指标
技巧8:对最先进工具进行基准测试
技巧9:对零模型进行基准测试
技巧10:在异构数据集上验证模型
为AI/ML模型采用鲁棒的模型评估技术可以节省时间、精力和资源,但也可以产生有用的见解并提高可信度。为了解决验证框架的缺乏,作者们提出了10个技巧,以作为生物医学科学中更好的模型验证实践的起点。除了关于如何验证模型的技巧之外,采用其他最佳实践,包括训练和验证数据之间没有泄漏,开放代码共享将有助于提高研究可重复性,增强模型可信度,并改善已发布模型。
参考文献
[1 Goh WWB, Kabir MN, Yoo S, Wong L. Ten quick tips for ensuring machine learning model validity. PLoS Comput Biol. 2024 Sep 19;20(9):e1012402. doi: 10.1371/journal.pcbi.1012402.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社