||
(一)在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。
针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。
1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”;
2、增加反例的数目平衡数据,再分类,这种称为“过采样”;
3、阈值移动:直接使用原始数据进行分类,但在用训练好的分类器进行预测时,将下式加入到决策过程中,以调整正反例的平衡性。
(二)欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?
参阅:https://www.zhihu.com/question/269698662/answer/352279936
【参考】
https://www.cnblogs.com/luban/p/9414468.html
https://www.zhihu.com/question/269698662/answer/352279936
点滴分享,福泽你我!Add oil!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-17 04:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社