|
引用本文
余海燕, 陈京京, 邱航, 王永, 王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自动化学报, 2021, 47(6): 1302−1314 doi: 10.16383/j.aas.c190081
Yu Hai-Yan, Chen Jing-Jing, Qiu Hang, Wang Yong, Wang Ruo-Fan. Adapted expectation maximization algorithm for Gaussian mixture clustering with censored data. Acta Automatica Sinica, 2021, 47(6): 1302−1314 doi: 10.16383/j.aas.c190081
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190081
关键词
高斯混合聚类,删失数据,期望最大化算法,截尾正态函数,二阶估计量
摘要
针对聚类问题中的非随机性缺失数据, 本文基于高斯混合聚类模型, 分析了删失型数据期望最大化算法的有效性, 并揭示了删失数据似然函数对模型算法的作用机制. 从赤池弘次信息准则、信息散度等指标, 比较了所提出方法与标准的期望最大化算法的优劣性. 通过删失数据划分及指示变量, 推导了聚类模型参数后验概率及似然函数, 调整了参数截尾正态函数的一阶和二阶估计量. 并根据估计算法的有效性理论, 通过关于得分向量期望的方程得出算法估计的最优参数. 对于同一删失数据集, 所提出的聚类算法对数据聚类中心估计更精准. 实验结果证实了所提出算法在高斯混合聚类的性能上优于标准的随机性缺失数据期望最大化算法.
文章导读
高斯混合聚类[1-2]作为统计机器学习、模式识别和阵列数据分析等的重要模型, 广泛用于健康医疗[3-4]、故障诊断[5-6]等领域. 然而, 常因诸如截断的数据、传感器故障或传输错误等造成数据不完整问题[1], 引起推断偏差并使得聚类精度下降. 例如在医疗决策智能支持中[7-8], 需要依据患者的各项生理指标信息进行智能推理[9-10], 然而由于记录数据删失或截断等导致数据不完整, 从而给数据分析带来困难. 在恶性淋巴瘤等疾病诊断[11]中, 流式细胞仪记录的数据因测量信号强度范围有限而使得数据记录在一个固定范围内(如0到1023之间), 如果测量值超出这一范围, 则该值将替换为最接近的值, 小于0的值将被删失记为0, 大于1023的值将被删失记为1023. 类似的删失数据还包括保险费理赔计算中, 因一定数量免赔额的存在使得记录成为删失数据等. 这类删失数据处理不当会影响分析结果的可靠性, 甚至使得聚类模型参数推断出现较大偏差. 又因这类数据的分布参数的精确估计, 为处理变量或治疗方案对观察结果的因果效应分析[12]提供基础, 甚至影响到后续的决策方案选择. 高斯聚类算法因能够提供分布参数的估计, 故而删失数据的参数估计已成为高斯混合聚类的一个重要热点问题.
删失数据的处理方法常基于缺失数据的处理机理. 因数据缺失机制不同, 处理方法也不尽相同. 数据缺失可以分为随机缺失(Missing at random, MAR)和非随机缺失(Missing not at random, MNAR)两大类[12]. 大多数传统的缺失数据处理方法主要集中于使用样本抽样推断、贝叶斯推断和似然法推断[13]. 其中贝叶斯推断和似然法在实际数据中的应用更为普遍. 当评估项目的长期性能数据随机缺失且观测数据也随机缺失时, 使用样本抽样估计数据集分布参数可以忽略缺失机制. 当数据属于随机缺失且缺失机制参数不同于数据集分布参数时, 使用贝叶斯推断和似然法也可以忽略缺失机制. 文献[12]对非随机缺失问题的探索, 还包括不可忽略性无响应问题、不可忽略性缺失性问题, 甚至被称为有信息缺失的问题等. 文献[14]认为存在解决非随机缺失的方法, 但是通常难以检验, 为此提出了惩罚验证标准, 通过惩罚未知参数过多的模型来防止模型过拟合. 删失数据作为一种非随机性缺失数据[15-16], 因其缺失机制(如删失)的特殊性而不能直接使用一般的非随机缺失方法直接计算[11].
删失数据常包括右删失和区间删失等类型. 对于右删失数据, 文献[17]基于一类广义概率测度的误差一致性, 提供了适用于删失数据的分类支持向量机并应用于删失数据平均值、中位数、分位数的估计以及分类问题. 针对区间删失数据, 文献[15]提出一种贝叶斯非参数化方法进行概率拟合. 文献[18]基于左截断右删失数据构造了分位差的经验估计, 并提出了分位数差的核光滑估计. 针对删失混合数据, 文献[19]提出了一个加权最小二乘估计的一般族, 并证明了现有的一致非参数方法属于这个族, 识别其估计量并分析其渐近性质. 而在高斯混合聚类模型算法中, 一般假设观测值的特征向量对聚类有相同的权重[20]. 然而文献[1]认为高斯混合聚类模型的每一个特征向量的权重并不一样, 提出竞争性惩罚期望最大化算法. 该算法将特征选择模型和高斯混合聚类模型结合在一起, 使用马尔科夫毯滤波器消除多余的特征项, 找到最小的相关特征子集, 同时确定高斯混合模型的混合成分个数. 文献[21]提出了一种基于高斯混合聚类和模型平均的算法. 对于缺失值, 该方法将每一组成成分得出的估计值作为线性组合的概率估计权重, 最终结果是混合成分的估计值的平均值. 文献[2]讨论高斯混合聚类分析的过拟合问题. 该文献改变了以往认为不相关变量必须通过线性回归方程依赖整个相关变量的做法, 认为相关变量并不一定要解释所有的不相关变量. 该模型可以有效地提高聚类算法的性能且变量选择的实现基于一个向后逐步算法. 标准期望最大化(Expectation-maximization, EM)算法作为高斯混合模型中常用的缺失数据处理方法[22], 更适用于处理随机缺失数据. 本文在标准EM的高斯混合聚类算法(EMGM) 基础上, 提出了嵌套删失数据期望最大化的高斯混合聚类算法(cenEMGM).
本文主要解决非随机缺失下的删失数据因利用率不高而导致聚类准确度不高的问题. 本文的主要贡献是: 利用高斯混合模型聚类算法独有的特性, 在标准EM算法的基础上提出改进算法cenEMGM, 并揭示了删失率对模型算法的作用机制. 将删失数据和高斯混合模型聚类算法结合, 更加准确地处理删失数据. 通过调整删失数据的分布函数, 使得删失数据最大期望算法不断更新均值、协方差和混合系数的估计值, 从而使得聚类簇中心不断接近真实的簇中心. cenEMGM算法在标准EMGM算法的基础上进行改进, 该方法更加灵活, 对删失和未删失数据采取不同的处理方式. 删失数据EM算法和高斯混合聚类相结合, 使得该方法比原方法聚类效果更好, 准确性更高. 后续章节结构如下: 第1节引入高斯混合聚类模型. 第2节论述删失型缺失数据的相关概念. 第3节构建高斯混合聚类的参数估计算法, 包括标准EMGM算法和cenEMGM两种算法, 以及两个模型校验准则. 第4节使用数值实验验证算法. 第5节得出结论.
图 1 在数据集DS-a右删失上的两种算法比较
图 4 在数据集DS-b双边删失上的两种算法比较
图 5 在血糖测试数据右删失上两种算法比较
删失型数据处理特别是在机器学习或数据挖掘等数据处理中, 作为工程实践和管理中数据处理的焦点问题. 由于删失数据处理的知识有限性, 需要根据删失模式制定合适的算法模型. 尽管当前数据智能处理所面临的数据规模较大, 但选取高价值的实验数据或稀有事件等所面临的删失数据处理仍然显得较为重要. 然而, 现有的缺失数据处理问题主要集中在随机缺失, 对非随机缺失下的删失型数据研究不深, 因此本文根据估计算法的有效性理论, 针对删失数据期望最大化的高斯混合聚类算法(cenEMGM), 通过关于得分向量期望的方程得出算法估计的最优参数. 与嵌套标准EM的高斯混合聚类算法(EMGM)相比, 本方法根据删失数据的指示变量调整样本似然函数, 进而改进参数估计的期望最大化算法, 使得高斯混合聚类模型参数估计准确性更高, AIC信息准则值更小, 聚类效果更好. 并通过数值实验论证了本方法相对于EMGM算法的优越性. 更多类型数据中的删失型缺失机制(模式)识别、不同删失情形下多种算法有效性分析及其高斯混合聚类算法拓展是下一步工作重点.
作者简介
余海燕
重庆邮电大学副教授. 美国宾西法尼亚州立大学博士后访问学者. 2015年获得天津大学博士学位. 主要研究方向为统计机器学习, 因果推断. 本文通信作者.E-mail: yuhy@cqupt.edu.cn
陈京京
重庆邮电大学经济管理学院硕士研究生. 主要研究方向为聚类算法和数据缺失机制.E-mail: chenjingjing_361@163.com
邱航
电子科技大学计算机科学与工程学院副教授. 2011年获得电子科技大学计算机应用技术博士学位. 2013 ~ 2014年英国诺丁汉大学访问学者. 主要研究方向为机器学习和计算机图形学.E-mail: qiuhang@uestc.edu.cn
王永
重庆邮电大学管理工程系教授. 2007年于重庆大学获得计算机科学与技术专业博士学位. 主要研究方向为数据分析和信息安全.E-mail: wangyong_cqupt@163.com
王若凡
天津职业技术师范大学讲师. 2015年获得天津大学博士学位. 2018 ~ 2019年美国宾夕法尼亚州立大学访问学者. 主要研究方向为神经影像数据分析, 机器学习.E-mail: wangrf@tju.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 04:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社