博文

随机森林（Random Forest）介绍

已有 56837 次阅读 2020-12-18 12:20 |系统分类:科研笔记

一、随机森林（Random Forest）的进化

随机森林本质上属于机器学习的一大分支——集成学习（Ensemble Learning），是将许多棵决策树（Decision Tree）整合成森林并用来预测最终结果的方法。

上世纪八十年代Breiman等人发明分类树的算法，通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感，对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用，被誉为当前最好的算法之一。

随机森林，顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。随机森林既可以处理属性为离散值的量，也可以处理属性为连续值的量。另外，随机森林还可以用来进行无监督学习聚类和异常点检测。

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

另外，再介绍两个术语：

①Bootstrap，这个奇怪的名字来源于文学作品 The Adventures of Baron Munchausen（吹牛大王历险记），这个作品中的一个角色用提着自己鞋带的方法把自己从湖底下提了上来。因此采用意译的方式，叫做自助法。自助法顾名思义，是从样本自身中再生成很多可用的同等规模的新样本，不借助其他样本数据。

这个方法在样本比较小的时候很有用，比如我们的样本很小，但是我们希望留出一部分用来做验证，那如果传统方法做train-validation的分割的话，样本就更小了，bias会更大，这是不希望的。而自助法不会降低训练样本的规模，又能留出验证集（因为训练集有重复的，但是这种重复又是随机的），因此有一定的优势。

至于自助法能留出多少验证，或者说，m个样本的每个新样本里比原来的样本少了多少？可以这样计算：每抽一次，任何一个样本没抽中的概率为 (1-1/N)，一共抽了N次，所以任何一个样本没进入新样本的概率为(1-1/N)N。那么从统计意义上来说，就意味着大概有(1-1/N)N比例的样本作为验证集。当N→infinite时，这个值大概是1/e，36.8%。以这些为验证集的方式叫做包外估计（out of bag estimate）。

②Bagging，它的名称来源于（Bootstrap aggregating），意思是自助抽样集成，这种方法将训练集分成m个新的训练集，然后在每个新训练集上构建一个模型，各自不相干，最后预测时我们将这m个模型的结果进行整合，得到最终结果。整合方式就是：分类问题用majority voting，回归用均值。

二、随机森林（Random Forest）与决策树（Decision Tree）

决策树是用树的结构来构建分类模型，每个节点代表着一个属性，根据这个属性的划分，进入这个节点的儿子节点，直至叶子节点，每个叶子节点都表征着一定的类别，从而达到分类的目的。常用的决策树有ID4，C4.5，CART等。在生成树的过程中，需要选择用那个特征进行剖分，一般来说，选取的原则是，分开后能尽可能地提升纯度，可以用信息增益，增益率，以及基尼系数等指标来衡量。如果是一棵树的话，为了避免过拟合，还要进行剪枝（prunning），取消那些可能会导致验证集误差上升的节点。

随机森林实际上是一种特殊的bagging方法，它将决策树用作bagging中的模型。首先，用bootstrap方法生成m个训练集，然后，对于每个训练集，构造一颗决策树，在节点找特征进行分裂的时候，并不是对所有特征找到能使得指标（如信息增益）最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。随机森林的方法由于有了bagging，也就是集成的思想，实际上相当于对于样本和特征都进行了采样，所以可以避免过拟合。预测阶段（prediction）的方法就是bagging的策略：分类投票和回归均值。

随机森林和使用决策树作为基本分类器的bagging有些类似。以决策树为基本模型的bagging在每次bootstrap放回抽样之后，产生一棵决策树，抽多少样本就生成多少棵树，在生成这些树的时候没有进行更多的干预。而随机森林也是进行bootstrap抽样，但它与bagging的区别是：在生成每棵树的时候，每个节点变量都仅仅在随机选出的少数变量中产生。因此，不但样本是随机的，连每个节点变量（Features）的产生都是随机的。

许多研究表明，组合分类器比单一分类器的分类效果好，随机森林是一种利用多个分类树对数据进行判别与分类的方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。

随机森林算法得到的每一棵树都是很弱的，但是大家组合起来就很厉害了。我觉得可以这样比喻随机森林算法：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家投票得到结果。而这正是群体智慧（swarm intelligence），经济学上说的“看不见的手”。随机森林的效果取决于多个分类树要相互独立，要想经济持续发展，不出现overfiting（就是由政府主导的经济增长，但在遇到新情况后产生泡沫），我们就需要要企业独立发展，独立选取自己的feature。

三、随机森林的特点

　　我们前边提到，随机森林是一种很灵活实用的方法，它有如下几个特点：

*在当前所有算法中，具有极好的准确率/It is unexcelled in accuracy among current algorithms；

*能够有效地运行在大数据集上/It runs efficiently on large data bases；

*能够处理具有高维特征的输入样本，而且不需要降维/It can handle thousands of input variables without variable deletion；

*能够评估各个特征在分类问题上的重要性/It gives estimates of what variables are important in the classification；

*在生成过程中，能够获取到内部生成误差的一种无偏估计/It generates an internal unbiased estimate of the generalization error as the forest building progresses；

*对于缺省值问题也能够获得很好得结果/It has an effective method for estimating missing data and maintains accuracy when a large proportion of the data are missing

... ...

实际上，随机森林的特点不只有这六点，它就相当于机器学习领域的Leatherman（多面手），你几乎可以把任何东西扔进去，它基本上都是可供使用的。在估计推断映射方面特别好用，以致都不需要像SVM那样做很多参数的调试。

四、随机森林的生成

前面提到，随机森林中有许多的分类树。我们要将一个新样本进行分类，需要将其输入到每棵树中进行分类。打个形象的比喻：森林中召开会议，讨论某个动物到底是老鼠还是松鼠，每棵树都要独立地发表自己对这个问题的看法，也就是每棵树都要投票。该动物到底是老鼠还是松鼠，要依据投票情况来确定，获得票数最多的类别就是森林的分类结果。森林中的每棵树都是独立的，99.9%不相关的树做出的预测结果涵盖所有的情况，这些预测结果将会彼此抵消。少数优秀的树的预测结果将会超脱于芸芸“噪音”，做出一个全面优秀的预测。将若干个弱分类器的分类结果进行投票选择，从而组成一个强分类器，这就是随机森林bagging的思想（关于bagging的一个有必要提及的问题：bagging的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但损失了解释性）。

有了树我们就可以分类了，但是森林中的每棵树是怎么生成的呢？

每棵树的按照如下规则生成：

1）如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；

从这里我们可以知道：每棵树的训练集都是不同的，而且里面包含重复的训练样本（理解这点很重要）。

为什么要随机抽样训练集？

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的，这样的话完全没有bagging的必要；

为什么要有放回地抽样？

我理解的是这样的：如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是"有偏的"，都是绝对"片面的"（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决，这种表决应该是"求同"，因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的，这样无异于是"盲人摸象"。

2）如果每个样本的特征维度为M，指定一个常数m<<M，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的；

3）每棵树都尽最大程度的生长，并且没有剪枝过程。

随机森林中的“随机”就是指的上面提到的两个“随机”。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好的抗噪能力（比如对缺省值不敏感）。

随机森林分类效果（错误率）与两个因素有关：①森林中任意两棵树的相关性：相关性越大，错误率越大；②森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。

减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个参数。

袋外错误率（oob error）

上面我们提到，构建随机森林的关键问题就是如何选择最优的m，要解决这个问题主要依据计算袋外错误率oob error（out-of-bag error）。

随机森林有一个重要的优点就是，没有必要对它进行交叉验证或者用一个独立的测试集来获得误差的一个无偏估计。它可以在内部进行评估，也就是说在生成的过程中就可以对误差建立一个无偏估计。

我们知道，在构建每棵树时，我们对训练集使用了不同的bootstrap sample（随机且有放回地抽取）。所以对于每棵树而言（假设对于第k棵树），大约有1/3的训练实例没有参与第k棵树的生成，它们称为第k棵树的oob样本。

而这样的采样特点就允许我们进行oob估计，它的计算方式如下（以样本为单位）：

1）对每个样本，计算它作为oob样本的树对它的分类情况（约1/3的树）；

2）然后以简单多数投票作为该样本的分类结果；

3）最后用误分个数占样本总数的比率作为随机森林的oob误分率。

oob误分率是随机森林泛化误差的一个无偏估计，它的结果近似于需要大量计算的k折交叉验证。

最后，再介绍两个有意思的数学公式，对我的提示就是：每天一点点的努力或懈怠，最后会有惊人的效果，而这，属于自然法则。

参考:

1. 知乎_混沌巡洋舰https://zhuanlan.zhihu.com/p/22097796

2. CSDN_江户川柯壮https://blog.csdn.net/edogawachia/article/details/79357844

CSDN_AAA小肥杨https://blog.csdn.net/yangyin007/article/details/82385967

转载本文请联系原作者获取授权，同时请注明本文来自胡耿科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3431904-1263043.html

上一篇：[转载]DNA连接酶工作原理
下一篇：[转载]你真得明白RPKM, FPKM, TPM这三者的区别吗？

收藏 IP: 123.135.126.*| 热度|

当前推荐数：1 推荐人：王正庆

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

胡耿

扫一扫，分享此博文

chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

随机森林（Random Forest）介绍

当前推荐数：1 推荐人：王正庆

该博文允许注册用户评论请点击登录评论 (1 个评论)

胡耿

全部作者的其他最新博文

全部精选博文导读

chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

随机森林（Random Forest）介绍

当前推荐数：1 推荐人： 王正庆

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

胡耿

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：王正庆

该博文允许注册用户评论请点击登录评论 (1 个评论)