||
相关下载详见 “视觉计算研究论坛”「SIGVC BBS」:http://www.sigvc.org/bbs/thread-29-1-3.html
Random forest = a classifier consisting of a collection of tree-structured classifiers {h(x,Qk),k=1,...} where the {Qk} are independent identically distributed random vectors and each tree casts a unit vote for the most popular class at input。
Two kinds of RF
—Results of Forest-RI
—误差率和AdaBoost差不多
—F = 1 和 log2M + 1误差率差不多
—在三个大数据集上F = 1 比 log2M + 1误差率有一定差距
—结论:
—RF和AdaBoost的分类性能差不多
—RF的速度比AdaBoost快很多
—很多时候只随机取一个输入(F=1)就能得到很好的效果
—Results of Forest-RC
—误差率和AdaBoost差不多
—小样本集上F=2足够,F=8有点多余
—大样本集上F=8更好
—结论:
—RF和AdaBoost的分类性能差不多
—Forest-RC和Forest-RI差不多,在合成数据集上Forest-RC更好
—RF的特点:
—具有和现有最好的分类算法同样的分类性能
—速度快:可以并行(更快),不需要交叉验证
—不会过拟合
—数据不需要预处理,对外点和缺少特征鲁棒
—可以用定义的样本proximity进行聚类
—和boosting比的优点:
—调节参数较容易
—大样本集上速度快
—不会过拟合
—可以并行处理各个树,因为它们是独立的
—证明误差上界和分类器强度和彼此相关性的关系
—多种随机性可以提高分类性能:随机输入,bagging
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 08:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社