IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

有混合数据输入的自适应模糊神经推理系统

已有 1346 次阅读 2023-7-22 15:53 |系统分类:博客资讯

引用本文

 

张宇献, 郭佳强, 钱小毅, 王建辉. 有混合数据输入的自适应模糊神经推理系统. 自动化学报, 2019, 45(9): 1743-1755. doi: 10.16383/j.aas.2018.c170698

ZHANG Yu-Xian, GUO Jia-Qiang, QIAN Xiao-Yi, WANG Jian-Hui. An Adaptive Network-based Fuzzy Inference System with Mixed Data Inputs. ACTA AUTOMATICA SINICA, 2019, 45(9): 1743-1755. doi: 10.16383/j.aas.2018.c170698

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170698

 

关键词

 

自适应模糊推理系统,结构辨识,激励强度转移矩阵,后件影响矩阵,混合属性数据 

 

摘要

 

现有数据建模方法大多依赖于定量的数值信息,而对于数值与分类混合输入的数据建模问题往往根据分类变量组合建立多个子模型,当有多个分类变量输入时易出现子模型数据分布不均匀、训练耗时长等问题.针对上述问题,提出一种具有混合数据输入的自适应模糊神经推理系统模型,在自适应模糊推理系统的基础上,引入激励强度转移矩阵和结论影响矩阵,采用基于高氏距离的减法聚类辨识模型结构,通过混合学习算法训练模型参数,使数值与分类混合数据对模糊规则的前后件参数同时产生作用,共同影响模型输出.仿真实验分析了分类数据对模型规则后件的作用以及结构辨识算法对模糊规则数的影响,与其他几种混合数据建模方法对比表明本文所提出的模型具有较高的预测精度和计算效率.

 

文章导读

 

随着全球数据量出现爆炸式增长, 数据成了当今社会增长最快的资源之一.如何对大量复杂数据进行分析和挖掘, 从中提取有价值的知识用于决策, 已经成为学术界和产业界广泛关注的问题[1-2].在各行业中数据分析与数据建模仍有许多核心技术问题有待解决[3-4].如商业金融领域, 电子商务企业通过对所销售产品的类别以及客户的浏览行为进行数据分析, 进而精准把握客户的购买意图, 其中数据信息中既包含数量、单价这样的数值信息, 又包含商品种类、属性这样的非数值信息.银行金融企业对储户分类进行分析, 根据客户特点对其设计不同的金融管理方案, 其中数据信息中既包含账户余额、资金流量这样的数值信息, 也包含储户年龄区间、职业、性别等非数值信息.又如工业生产领域, 钢铁行业炼钢过程通过生产工艺参数建立生产过程数据模型对产量、产品质量、能耗等指标进行估计, 其中工艺参数中既包含氧气压力、流量等数值数据, 也包含造渣原料种类(如石灰、白云石和萤石等)带有分类性质的非数值数据.汽车行业电动汽车电池管理系统通过电池组运行数据对电池组状态和汽车续航里程进行估计, 其中既包含电流、电压、内阻、温度等数值数据, 也包含电池结构、电池类型等非数值数据.再如医疗领域中, 医疗辅助诊断借助医院综合管理信息系统数据进行大数据挖掘给出患者的诊断和治疗方案建议, 其中医学数据中既包含化验结果、基因数据等数值数据, 同时也包含波形信号、图像、文字等非数值数据.上述领域中普遍存在一个共同特点, 即数据信息中同时包含数值/非数值两类数据(这里我们将非数值数据统称为分类数据).

 

然而, 现有数据建模方法大多依赖于定量的数值信息, 难以加入定性的分类信息.对此国内外学者进行了大胆的尝试, 并取得了一些进展. Jacobs[5]利用多个独立网络子模型构建组合模型, 采用有监督学习对模型参数进行训练.其子模型中仅包含数值变量, 各子模型由分类变量组合成完整数据模型.但当分类属性值较多时, 不同分类变量的组合排序将呈几何倍数增长. Lee[6]构建了多个参数的组合模型, 每个子模型输入仅有数值数据.该方法采用1-out-of-n编码, 把子模型中分类数据编码为一个数值向量, 然后把该向量导入神经网络.然而当训练数据分布不均匀时无法精确描述模型. Brouwer [7-8]提出基于多层感知机(Multi layer perception, MLP)结构的改进神经网络模型, 该模型由多感知机和多输出编码器单元组成.模型输入为数值变量, 由分类变量决定最终模型输出, 即每一个输出单元对应一个分类输入变量组合.该方法适用于分类变量较少的数据建模问题, 当分类变量数量较大时该方法训练结构参数的时间较长. Rey-del-Castillo[9]提出一种模糊极小极大神经网络, 由模糊超立方体聚集形成的集合体定义模糊集, 模糊超立方体的极大点作为模糊操作算子, 并利用改进模糊极小极大神经网络模型结构实现数值/分类混合属性数据建模.但由于神经网络的黑箱结构, 模型的输入输出映射关系难以解释. Hsu [10]采用自组织神经网络(Self-organizing map, SOM)结构, 通过定义分类数据之间的距离把分类数据转化为数值数据.张宇献等[11]以自组织映射神经网络为框架, 采用基于样本概率的异构值差度量混合属性数据的相异性.利用分类特征项在Voronoi集合中出现频率作为分类属性数据参考向量更新规则的基础, 通过混合更新规则实现数值属性和分类属性数据规则的更新.

 

尽管上述研究工作在数值/分类混合的数据建模中做出了积极贡献, 但对于数值/分类混合的数据建模研究中仍有一些难点问题尚未得到很好的解决, 具体体现在以下几方面: 1)多个分类变量采用排列组合方式参与数值数据计算时, 不同分类变量的组合排序将呈几何倍数增长; 2)按分类变量建立多个子模型, 各子模型训练数据分布不均匀; 3)将分类变量转化为二进制数或定义成数值变量, 参与计算时易出现大数吃小数现象; 4)分类数据转化为数值数据的过程, 忽略了各变量值之间内在的分类或约束关系.

 

针对上述问题, Liu[12]提出带分类输入的自适应模糊推理系统(Adaptive network-based fuzzy inference system with categorical inputs, C-ANFIS)结构, 将激励强度转移矩阵(Firing-strength transform matrix, FTM)引入自适应模糊推理系统(Adaptive network-based fuzzy inference system, ANFIS), 把分类数据对规则的影响作用到规则前件的激励强度上.该方法一定程度上取得了不错的效果, 但它却存在自身不足: C-ANFIS只考虑分类数据对规则前件的影响, 而对规则后件并未做任何处理.基于以上分析, 本文提出了一种具有混合数据输入的自适应模糊推理系统(Adaptive network-based fuzzy inference system with mixed data inputs, MDI-ANFIS)模型.该模型在标准ANFIS结构基础上, 引入激励强度转移矩阵和后件影响矩阵(Consequent influence matrix, CIM), 通过后件影响矩阵把分类数据对模糊规则后件的影响作用到ANFIS, 使分类数据对整个模糊规则产生影响, 并提出适应MDI-ANFIS结构的参数学习算法.同时, 针对MDI-ANFIS结构辨识问题, 给出了基于高氏距离的减法聚类算法, 通过在减法聚类中引入混合型数据的高氏距离来确定MDI-ANFIS的模糊规则数和规则前后件的初始参数.

 1  MDI-ANFIS结构

 2  样本平均规则后件输出

 3  模型训练误差对比

 

本文针对已有混合数据模型存在的模型组合随分类变量呈几何增长以及子模型训练数据分布不均匀问题, 提出一种具有混合数据输入的自适应模糊神经推理系统模型.该模型引入激励强度转移矩阵和后件影响矩阵, 构建新型模糊神经网络结构, 使混合属性数据对模糊规则的前后件同时产生影响.在模型的结构辨识中, 将高氏混合距离引入减法聚类, 计算混合型样本点的密度值, 克服了经典ANFIS网络仅适用于数值数据不适用分类数据的缺陷.在模型的参数学习中, 使用BPLSE混合学习算法来训练前件参数、激励强度转移矩阵、后件参数以及后件影响矩阵.仿真实验验证了后件规则对模型的影响作用, 并验证了结构辨识中采用GDSC算法能够以更少的规则数达到模型精度要求.最后, 选取UCI数据库中7组数据进行对比实验, 结果表明所提出的具有混合数据输入的自适应模糊神经推理系统模型相比其他模型具有更高的预测精度.

 

作者简介

 

郭佳强 

沈阳工业大学信息科学与工程学院硕士研究生.主要研究方向为智能控制, 复杂系统建模.E-mail:guo_dataworld@163.com

 

钱小毅 

沈阳工业大学电气工程学院博士研究生.主要研究方向为智能优化, 复杂机电装备的故障诊断.E-mail:qianxiaoyi123@163.com

 

王建辉

博士, 东北大学信息科学与工程学院教授.主要研究方向为智能控制, 复杂系统建模, 康复机器人.E-mail:wangjianhui@ise.neu.ediu.cn

 

张宇献 

沈阳工业大学电气工程学院副教授.2007年获得东北大学控制理论与控制工程专业博士学位.主要研究方向为智能控制, 复杂系统建模, 智能优化.本文通信作者.E-mail:yuxian524524@163.com



https://blog.sciencenet.cn/blog-3291369-1396253.html

上一篇:磨矿破碎过程粒度分布的分布式参数蒙特卡洛动力学模拟及加速方法
下一篇:基于密度的Top-n局部异常点快速检测算法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-22 20:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部