NJU1healer的个人博客分享 http://blog.sciencenet.cn/u/NJU1healer

博文

集群模型

已有 2467 次阅读 2020-5-5 12:15 |个人分类:机器学习|系统分类:科研笔记

       决策树容易过拟合,集群模型可以有效缓解这个问题。主要有Bagging和Boosting、stacking方法。

探讨:一棵树和一个森林的比较(随机森林)

image.png

image.png

        随机森林的显著效果是:减少模型方差,可以有效防止过拟合!(其特点并非:增大模型拟合力,见少偏差)。

(一)Bagging(类似于并行)

image.png

       随机森林就是其代表。

(二)Boosting(下一个基于前一个,站在巨人的肩膀上,类似于串联)

image.png

       特色:三个臭皮匠,顶个诸葛亮。靠弱模型数量多取胜,不是靠单个强模型

       Boosting--在跌倒的地方爬起来:

image.png

(1)GradientBoosting(梯度增强)

例子:

image.png

image.png

image.png

         下一个分类器预测拟合上一个分类器的残差,然后进行加和决策。

为什么叫梯度?需要从损失函数讲起:

image.png

寻找当下最优解决路径

image.png

之前求梯度是对参数求偏导,现在是对函数求偏导,cost(F)=[ 求和 (预测结果 - 真实值) ].

image.png

对损失函数F求偏导后,得到:

image.png

image.png

尝试不同损失函数:

image.png

(2)AdaBoosting

image.png


image.png

如何建立损失函数:

    ①衡量真实和预测值的距离;

    ②连续可微可导;

    ③根据数据分布设定;

    ④具有对噪声的鲁棒性;

    ⑤合理加入正则项。

image.png

(三)stacking

image.png


       点滴分享,福泽你我!Add oil!



https://blog.sciencenet.cn/blog-3428464-1231691.html

上一篇:决策树
下一篇:PCA
收藏 IP: 118.74.90.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-9 07:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部