不动如山分享 http://blog.sciencenet.cn/u/hustliaohh 脚踏实地,稳步向前

博文

十三讲 Hazard of Overfitting

已有 3389 次阅读 2014-1-15 22:40 |个人分类:科研道路|系统分类:科研笔记

由于高维映射使得VC维增加,此时,若数据样本个数N有限时,就容易造成过拟合(Overfitting)。

1. What is Overfitting?




Overfitting 产生的原因(老师举了驾车的例子):


2. The Role of Noise and Data Size



当数据样本有限(甚至比较少)时,简单模型比复杂模型性能更优!

3. Deterministic Noise


两类误差:1)数据样本的误差;2)模型表示能力不足带来的误差,如50维的多项式用一个20维的多项式去表示,造成表示不足的误差!


Deterministic Noise


4. Dealing with Overfitting


All very practical techniques to combat overfitting!

  • Correct the label (data cleaning);

  • Remove the example (data pruning);

    Possibly helps, but effect varies!

  • Add virtual examples by shifting/rotating the given digits (data hinting);

   Possibly helps, but watch out —virtual example not i.i.d. $\sim$ $P(x; y)$!



http://blog.sciencenet.cn/blog-507072-759494.html

上一篇:十二讲 Nonlinear Transformation
下一篇:十四讲 Regularization

2 曹俊兴 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2020-2-21 05:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部