NJU1healer的个人博客分享 http://blog.sciencenet.cn/u/NJU1healer

博文

分类问题中的过采样和欠采样

已有 7091 次阅读 2020-8-19 15:13 |个人分类:机器学习|系统分类:科研笔记

(一)在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡

针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。

1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”;

2、增加反例的数目平衡数据,再分类,这种称为“过采样”;

3、阈值移动:直接使用原始数据进行分类,但在用训练好的分类器进行预测时,将下式加入到决策过程中,以调整正反例的平衡性。

(二)欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?

参阅:https://www.zhihu.com/question/269698662/answer/352279936

image.png

image.png

image.png

image.png

image.png

image.png

image.png

【参考】

https://www.cnblogs.com/luban/p/9414468.html

https://www.zhihu.com/question/269698662/answer/352279936

点滴分享,福泽你我!Add oil!




https://blog.sciencenet.cn/blog-3428464-1246992.html

上一篇:Pandas之groupby、读取excel、处理缺失值及to_csv()
下一篇:Python中函数:pop()、sklearn中shuffle、classification_report
收藏 IP: 211.162.81.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-14 22:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部