||
决策树容易过拟合,集群模型可以有效缓解这个问题。主要有Bagging和Boosting、stacking方法。
探讨:一棵树和一个森林的比较(随机森林)
随机森林的显著效果是:减少模型方差,可以有效防止过拟合!(其特点并非:增大模型拟合力,见少偏差)。
(一)Bagging(类似于并行)
随机森林就是其代表。
(二)Boosting(下一个基于前一个,站在巨人的肩膀上,类似于串联)
特色:三个臭皮匠,顶个诸葛亮。靠弱模型数量多取胜,不是靠单个强模型。
Boosting--在跌倒的地方爬起来:
(1)GradientBoosting(梯度增强)
例子:
下一个分类器预测拟合上一个分类器的残差,然后进行加和决策。
为什么叫梯度?需要从损失函数讲起:
寻找当下最优解决路径:
之前求梯度是对参数求偏导,现在是对函数求偏导,cost(F)=[ 求和 (预测结果 - 真实值) ].
对损失函数F求偏导后,得到:
尝试不同损失函数:
(2)AdaBoosting
如何建立损失函数:
①衡量真实和预测值的距离;
②连续可微可导;
③根据数据分布设定;
④具有对噪声的鲁棒性;
⑤合理加入正则项。
(三)stacking
点滴分享,福泽你我!Add oil!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社