dwchen的个人博客分享 http://blog.sciencenet.cn/u/dwchen

博文

中国教育最大的问题:Overfitting 精选

已有 25608 次阅读 2014-6-22 16:27 |个人分类:教育|系统分类:观点评述|关键词:机器学习,中国教育,,Overfitting| 中国教育, 机器学习, Overfitting

       最近北京在召开ICML大会,即机器学习国际大会,是该领域最大规模最高水平的大会。据说,美国加州大学伯克利分校的Jordan教授也要亲自来做大会报告。Jordan 是该领域的顶级大牛,是美国的三院院士(科学院、工程院和艺术科学院),尤其培养的弟子遍布世界名校,也都各有建树。我在2009年访问伯克利的时候,每周几乎都参加Jordan 组织的Machine Learning Tea的茶会。我的学术水平提高不多,世界各地的茶和茶点倒是品尝了不少。机器学习的一些概念、方法和技术,在Jordan 教授及其学生的闲聊和争论中,不知不觉地偷学了一些。至于ICML大会的具体细节就不多做广告了,有兴趣可以去北京国际会议中心亲身体验。

     机器学习现在已经成为计算机科学中的一个重要分支,包括内容甚多。其核心思想之一,是通过大量训练数据学习出一个模型;有了新的输入,通过训练的模型获得新的输出。以前的研究,要求模型在训练集上的误差越小越好,即训练误差最小为优化目标优化模型及其参数。

    但是,最近这些年的研究发现,不是训练误差越小越好,而是要适可而止。如果训练误差太小,将会导致模型出现overfitting(过度拟合)现象,使得模型在面对新的输入(训练集中没有的输入)情况下,输出误差很大。由此,发展出了很多的相关技术和方法,比如正则化、模型选择、Lasso 等,有关技术细节,本文不做深入探讨。在机器学习领域,目前已经是一个理论基石:Overfitting将导致generilization(泛化)能力下降。泛化能力就是就是在新的数据出现的情况下,模型获得正确输出的能力,类似于解决新问题的能力,也就是我们今天不停呼唤的创新能力。

    Overfitting现象正如中国中小学教育广泛存在的题海现象,通过大量反复的讲解、习题和模拟训练,使得学生获得这些题目(很类似的题目)的解题能力,得分越来越高,类似于训练误差趋于0。有的学生,尤其是高考状元,通过大量反复训练,甚至可以达到,对于试卷上的所有试题都有一种似曾相识的感觉,凭经验、记忆就可以快速自动求解,而不需要再花费时间去思考。显然,我国教育广泛存在overfitting,导致了我国学生的创新能力(泛化能力)明显下降。

     机器学习理论告诉我们,不能过度训练、不能过度教育,不能追求误差最小 (考分最高), 只有泛化能力(创新能力)最为重要。希望我们广大的家长朋友,不能再让孩子去上各种辅导班,过犹不及!辅导班上得越多,考分越高,表面上看获益了,其实是Overfitting, 严重损害了孩子的创新能力。  





http://blog.sciencenet.cn/blog-57940-805604.html

上一篇:高考的中国特色与改革畅想
下一篇:巴西世界杯揭示伟大科研团队的奥秘

112 向峥嵘 武夷山 刘全慧 罗德海 罗汉江 余国志 王涛 夏铁成 叶建军 张能立 王善勇 李梅 文克玲 肖重发 魏金本 杨正瓴 高召顺 许方杰 王春艳 彭真明 刘士勇 赵帅飞 张德元 陈儒军 梁红斌 戴德昌 任磊 黄永义 孔梅 汪晓军 高建国 朱志敏 赵斌 陈理 刘明超 曹建军 杨立坚 姚小鸥 曹须 张云扬 刘俊华 赵星 张江敏 周可真 李天成 李伟钢 唐凌峰 沈乐君 段瑞飞 刘灵通 陈敬朴 袁君云 刘丽华 虞左俊 李世春 韩威 王林平 彭思龙 杜占池 季丹 李宇斌 郭勇 丁大勇 黄焕平 戴小华 丁邦平 陈龙珠 张文增 何学锋 陈沐 吴昊 付小军 强涛 盖伟龙 杨连新 朱建喜 王志平 佟冬 李平康 苏红 文小刚 张智才 张启峰 葛永华 陈立平 梁礼铭 陈齐风 刘立 姚伯元 甘雷 wangqinling QDA2012 ppp666 liweihao shenlu biofans mpywang yunmu flxj56 s11s fireComputing xiaoniuzeng abang zhouguanghui changtg eastHL2014 JerryYin jiareng castle1989 lingling101 xiaojiebjtu tashanshi

该博文允许注册用户评论 请点击登录 评论 (147 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2020-1-20 01:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部