drwuHUST的个人博客分享 http://blog.sciencenet.cn/u/drwuHUST

博文

TSK模糊系统回归和分类模型的梯度下降训练新方法

已有 481 次阅读 2020-1-14 01:13 |个人分类:机器学习|系统分类:科研笔记

        模糊系统是一种很有用的机器学习方法,但是目前为止并没有针对大数据的很有效的训练方法。本文介绍华中科技大学人工智能与自动化学院脑机接口与机器学习实验室伍冬睿教授团队与曾志刚教授、黄剑教授、袁烨教授、谭毅华教授合作,在这方面取得的一些最新进展。

 

一.模糊集

模糊集最早由加州大学伯克利分校Zadeh教授于1965年提出(Zadeh因为在模糊集和模糊系统方面的开创性贡献,获得了1995年的IEEE Medal of Honor,相当于电子工程方向的诺贝尔奖),如下图1(a)X所示。模糊集主要是用来建模人类语言中的不确定现象。比如,我们说温度35度以上为“高温”,那么根据经典二值逻辑,气温34.9度就不能算是“高温”。显然,这有悖于人们的直观感受:34.9度跟35度在感觉上又有多少区别呢?所以,34.9度也应该算作“高温”,只是它属于“高温”这个概念的隶属度不为1,而是略小于1的一个值,比如0.950.99. 同理,34.5度也应该算作“高温”,只是它的隶属度比34.9度要稍低一些。所有等于或高于35度的温度都完全属于“高温”,即隶属度为1。

FS.png

在图1(a)中,uX(x)代表的即是x属于模糊集X的隶属度函数,为[0,1]之间的值。图1(b)Zadeh经典模糊集的一个推广,称为区间二型模糊集,也由Zadeh1975年提出,并由美国南加州大学Mendel教授(本人博士导师)在2000年左右发扬光大,成为目前模糊系统中最热门的研究方向之一。我自己的博士工作也主要集中在区间二型模糊集上面,这里不做详述。感兴趣的读者可以在这里下载我写的一个简单示例和教程:https://www.mathworks.com/matlabcentral/fileexchange/29006-functions-for-interval-type-2-fuzzy-logic-systems

 

二.模糊系统

基于模糊集和规则的模糊系统已经在很多问题中得到了成功应用,特别是控制和决策。其最大的优点是可解释性,即整个系统是基于规则构建的,而每一条规则都可以直观地理解。当然,随着现在数据驱动建模方法的流行,模糊系统规则也变得越来越复杂和难以理解。但这不是本文的重点,不再详述。

模糊系统常用的有两种规则:Zadeh规则,其中规则后置是模糊集,和Takagi-Sugeno-Kang (简称TSKSugeno为日本东京工业大学教授)规则,其中模糊后置是输入的函数。一个TSK规则通常具有如下形式:

TSK.png

其中x1, …, xdd维的输入,Xk,1, …, Xk,d为第k条规则中各个输入对应的模糊集(这些模糊集可以随规则不同而变化),yk(x)为该规则的输出,它是关于输入的一个线性函数(也可以是复杂的非线性函数,但是线性函数用得最多;有时候yk(x)就是一个简单的常数,即只使用bk)。

Zadeh模糊系统(也称为Mamdani模糊系统;Mamdani为英国帝国理工学院教授,因为1974年最早把模糊系统成功应用于控制而带来了模糊控制的繁荣,从某种意义上说,Mamdani拯救了模糊系统)由4个部分组成,如下图所示:模糊化,规则库,推理机,和去模糊化。模糊化把每个输入映射成模糊集,推理机基于规则库进行推理来得到一个新的模糊集,然后去模糊化把模糊集映射成一个数值化输出。

FLS.png

TSK模糊系统不需要去模糊化,因为推理机的输出直接就是清晰的数值。近年来,TSK模糊系统比Zadeh模糊系统更为流行,因为其结构和计算更简单,但是表达能力更强,尤其适用于数据驱动的建模。

 

三、构建模糊系统的挑战

构建一个性能良好的模糊系统并不是一件容易的事情,有很多挑战,比如:

  1. 优化。模糊系统可以通过进化算法、梯度下降、梯度下降+最小二乘(比如很流行的ANFIS方法,如下图所示,原文已经被引用15900多次)等方法优化。然而,每种优化方法都有其不足之处:进化算法运算代价很高,不适合大数据应用;传统的梯度下降方法对学习参数很敏感;ANFIS很容易导致过拟合。所以,有必要开发更有效和快速的模糊系统优化算法,特别是针对大数据的应用。

    ANFIS.png

  2. 可解释性。如本文开头所提到的,可解释性是模糊系统区别于其他机器学习方法的最显著特征。但是,可解释性随着规则数增多而迅速下降。如何在保持模糊系统性能的基础上提高可解释性,是研究难点之一。

  3. 维度诅咒。传统的基于网格划分构造的模糊系统的规则数目随着输入维度的增加而呈指数倍增加,因而很难应用于高维数据。基于聚类初始化的模糊系统能在一定程度上解决规则数目爆炸的问题,但是聚类本身也有维度诅咒的问题。而且,随着输入数增多,规则也变得很难解释。

  4. 泛化性能。任何机器学习模型都不是只追求训练性能;更重要的泛化能力,即在未见过的数据上面的表现。提高机器学习模型泛化能力的一个重要方法是正则化,但是目前模糊系统中正则化用得还比较少。

 

四.TSK模糊系统与其它经典机器学习模型的等价性

我们最近的研究(见参考文献)全面深入地探索了TSK模糊系统与神经网络、混合专家模型、分类回归树CARTstacking集成学习的等价性,并指出通过借鉴这些等价机器学习方法,可能可以克服上面提到的四个挑战:

  1. 优化。受模糊系统与神经网络等价性的启发,我们最近的工作把深度学习里面的一些优化技巧,比如Mini-Batch Gradient DescentAdamAdaBound)、DropOutBatch Normalization等推广到了模糊系统优化中,取得了很好的效果,后面两节会有详细介绍。

  2. 可解释性。受模糊系统与混合专家模型(Mixture of Experts, MoE)等价性的启发,我们最近的工作设计了一个新颖有效的正则化项,提高了模糊系统分类器的训练和泛化能力。后面会有详细介绍。

  3. 维度诅咒。受模糊系统与CART等价性的启发,已经有很多研究者用CART生成的规则来更好地初始化模糊系统的规则。我们也在进行这方面的进一步探索。

  4. 泛化性能。众所周知,集成学习的泛化能力很强。受模糊系统与stacking集成学习等价性的启发,我们正在研究提高模糊系统泛化能力的方法。


参考文献D. Wu, C-T Lin, J. Huang* and Z. Zeng*, "On the Functional Equivalence of TSK Fuzzy Systems to Neural Networks, Mixture of Experts, CART, and Stacking Ensemble Regression," IEEE Trans. on Fuzzy Systems, 2019, in press. 

arXiv: https://arxiv.org/abs/1903.10572

MoE.png

CART.png

fCART.png

stacking.png

 

五.TSK模糊系统优化步骤

      优化一个TSK模糊系统通常需要如下几个步骤:

  1. 选择一个合理的目标函数

  2. 初始化模型参数(隶属度函数参数,和规则后置的参数)

  3. 根据目标函数,进一步优化模型参数。其中至少有3个问题需要考虑:

    1. 如何处理大数据?大数据有很多特点,这里我们只考虑训练样本多和特征维度高这两个特性。

    2. 如何加速训练?

    3. 如何提高泛化能力?

下面我们针对TSK模糊系统的回归问题和分类问题,分别介绍我们最近的工作进展。

 

六.TSK模糊系统回归模型的优化

  1. 选择一个合理的目标函数:我们在传统的均方误差损失项上引入了对规则后置系数的L2正则化。这是机器学习中的常见方法,一般用来提高泛化能力。

  2.  初始化模型参数(隶属度函数参数,和规则后置的参数):我们使用半随机初始化。高斯隶属度函数的均值在对应变量的取值范围内随机选取,方差采用对应变量的方差。规则后置系数都初始化为0。但是初始化对模型最终性能影响不是很大,也可以随机初始化。

  3. 根据目标函数,进一步优化模型参数

    1. 如何处理大数据?借用深度学习中常用的Mini-batch gradient descent (MBGD),每次只用一个随机选取的小批量数据进行训练。

    2. 如何加速训练?学习率对训练速度影响很大。目前深度学习中最流行的自适应学习率调整方法是AdamAdam的一个问题是,自适应调节后的学习率可能很大或很小,都不利于训练。我们实验发现最近提出的AdaBound(为Adam的学习率加上一个区间限制,让其不能过大或过小)比Adam的效果更好一些,所以这里采用AdaBound来自动调整学习率。

    3. 如何提高泛化能力DropOut2019年图灵奖获得者Hinton组提出的提高深度学习模型泛化能力的简单有效方法。这里我们把对应思想推广到TSK模糊系统的训练当中,提出了DropRule,如下图所示。基本思想是在训练的过程中随机丢弃一部分规则。这样每条规则在应对一个新的训练batch时,因为跟其搭配的规则改变了,所以不能太依赖于其他规则(上个batch跟其搭配的其他规则可能表现很好,所以当前规则可以偷懒不干活;但是新的batch里面跟其搭配的规则可能表现很不好,所以当前规则必须调整自己来减小训练误差),迫使每条规则都能得到充分训练并发挥自己的最大潜力。这样有助于提高模型的整体泛化性能。

DropRule.png

   我们的最终训练方法,Mini-Batch Gradient Descent with Regularization, DropRule, and AdaBound (MBGD-RDA),在10个公共数据集上取得了比标准MBGDMatlab Fuzzy Logic Toolbox中的标准ANFIS优秀很多的性能,如下面两个图所示。

DropRule2.png


DropRule3.png

     

    所提出的MBGD-RDA相对于其他方法性能提高的百分比:

DropRule4.png


参考文献D. Wu*, Y. Yuan, J. Huang and Y. Tan*, "Optimize TSK Fuzzy Systems for Regression Problems: Mini-Batch Gradient Descent with Regularization, DropRule and AdaBound (MBGD-RDA)," IEEE Trans. on Fuzzy Systems, 2020, in press. 

arXiv: https://arxiv.org/pdf/1903.10951.pdf

相关Matlab源码https://github.com/drwuHUST/MBGD_RDA

 

七.TSK模糊系统分类模型的优化

  1. 选择一个合理的目标函数:我们在传统的交叉熵误差损失项上引入了对规则后置系数的L2正则化,以及Uniform Regularization (UR)UR的目的是让各个规则对输出的贡献大致均衡,缓解rich get richer现象。这个正则化项的思路感觉跟DropRule有点相近,后面需要进一步比较一下。

  2. 初始化模型参数(隶属度函数参数,和规则后置的参数):可以随机初始化,或用k-means聚类初始化。这一步对最终结果影响不大。

  3. 根据目标函数,进一步优化模型参数

    1. 如何处理大数据?再次借用深度学习中常用的Mini-batch gradient descent (MBGD), 每次只用一个随机选取的小批量数据进行训练。

    2. 如何加速训练?再次采用AdaBound来自动调整学习率。

    3. 如何提高泛化能力?批规范化(Batch NormalizationBN)是深度学习中用来解决internal covariate shift(近年来有研究说BN解决的并不是internal covariate shift的问题,但这不是本文的重点;总之BN效果非常好,大家都在用)并提高泛化能力的方法,几乎成了深度神经网络训练的标配。我们把BN从深度学习推广到了TSK模糊系统的训练,如下图所示。当然BN有不同的加入位置和方法,我们的实验发现下图方法的效果最好。

BN.png

     我们的最终训练方法,TSK-MBGD-UR-BN,在12个公共数据集上取得了很好的分类效果,如下面两个表格所示。

BN1.png

BN2.png

参考文献Y. Cui, D. Wu* and J. Huang*, "Optimize TSK Fuzzy Systems for Classification Problems: Mini-Batch Gradient Descent with Uniform Regularization and Batch Normalization," IEEE Trans. on Fuzzy Systems, 2020, in press. 

arXiv:https://arxiv.org/abs/1908.00636

相关Python源码https://github.com/YuqiCui/TSK_BN_UR

 

八.TSK模糊系统新训练方法总结

        下表总结了我们提出的TSK模糊系统回归和分类模型的新的训练方法:

BN3.png

当然,分类问题和回归问题不是完全独立的,这里的URBN可能也可以用于回归问题,DropRule可能也可以用于分类问题。这是我们后面将要探讨的方向。



http://blog.sciencenet.cn/blog-3418535-1214113.html

上一篇:关于神经网络中的线性区域
下一篇:区间二型模糊系统

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-2-24 17:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部