zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

机器学习中的“优秀学生”“和“三好学生”

已有 2711 次阅读 2022-6-9 10:34 |个人分类:科普|系统分类:科普集锦

在六一儿童节这一天,许多小学都会评出“优秀学生”、“三好学生”等荣誉称号。所谓“优秀学生”,一般指态度端正、认真听讲、积极互动、完成作业和学习成绩好的一类学生,重点突出学习方面。所谓“三好学生”,除了学习好,还要求品德好和身体好,可谓德智体美劳全面发展的一类学生。

 

评价学生是否是“优秀学生”、“三好学生”,一般通过测试成绩评价指标来体现。与之类似,在机器学习领域,也有一系列评价指标来评判学习算法的有效性。例如,二分类算法就有如图1所示的许多种评价指标。那么,机器学习中的“优秀学生”、“三好学生”如何来评判?

 

image.png

1 机器学习评价指标(https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers

 

给定一个数据集,如果学习算法A在评价指标下,能够表现出良好的学习性能,那么该学习算法就是“优秀学生”。给定多个数据集(一般来自不同领域),如果学习算法B在评价指标下,都能够表现出良好的学习性能(类似于德智体美劳全面发展),那么该学习算法就是“三好学生”。这里需要指出的是,往往许多学习算法中的“优秀学生”具有数据特异性,即只在某一领域的数据集中表现良好。另一方面,学习算法中的“三好学生”具有数据泛化性,即在多个领域的数据集中都表现良好。学习算法中的“优秀学生”一般为特定研究领域定制,而学习算法中的“三好学生”倾向于应用推广。

 

可以说,已有的学习算法在特定数据集中,都可以成为“优秀学生”。在多个数据集中,能够成为“三好学生”的学习算法普遍为集成学习算法。因为集成学习算法的设计理念就是取长补短,即将多个层次不齐的学习算法融合起来,转化成一个强学习算法。例如,在二分类器领域,随机森林、BoostingBagging就是典型代表。在性能方面,集成学习算法进一步强调了集思广益的重要性和必要性。

 

后话

英国统计学家George E. P. Box曾经说:All models are wrong, but some are useful. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.(翻译过来:所有模型都是错的,但其中有些是有用的。记住,所有模型都是错误的;关键的问题是模型错到什么程度就一无是处了。)。这段话强调了,只要涉及预测,就难免会出现错误率,该错误率你能够接受,那么该学习算法就是“优秀学生”或“三好学生”。

 

参考链接

[1] https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

15. scIB:单细胞数据融合基准框架

16. 临床医疗维修店铺

17. NAguideR:填充蛋白质组学数据缺失值

18. 怎样做好一项研究?

19. 怎样做开题报告?

20. 深度学习助力单细胞数据分析

21. Any RNA

22. 走进数据科学

23. 直抵自闭症核心

24. 癌症内RNA

25. 一对搭档:计算与生物

26. TF靶标

27. 生物组织内细胞通讯

28. 记一次主题编辑经历

29. 6个,10个,14......

30. 你健康吗?

31. 你衰老了吗?

32. scIMC:填充单细胞转录组数据缺失值

33. 差异表达分析:经典方法未必逊色于流行方法

34. 多组学的基本要素

35. 怎样开展网络数据分析?

36. miRNA组学

37. 走进数据挖掘

38. 让机器真正学习

 

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1342214.html

上一篇:让机器真正学习
下一篇:piRNA关联数据库和计算模型
收藏 IP: 39.128.54.*| 热度|

1 李宏翰

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 10:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部