|
引用本文
杨艺, 蒋良孝, 李超群. 一种基于自训练的众包标记噪声纠正算法. 自动化学报, 2023, 49(4): 830−844 doi: 10.16383/j.aas.c210051
Yang Yi, Jiang Liang-Xiao, Li Chao-Qun. A self-training-based label noise correction algorithm for crowdsourcing. Acta Automatica Sinica, 2023, 49(4): 830−844 doi: 10.16383/j.aas.c210051
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210051
关键词
众包学习,自训练,集成标记,标记噪声,噪声纠正
摘要
针对众包标记经过标记集成后仍然存在噪声的问题, 提出了一种基于自训练的众包标记噪声纠正算法(Self-training-based label noise correction, STLNC). STLNC整体分为3个阶段: 第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集. 第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系. 第3阶段首先根据发现的空间结构关系设计噪声实例选择策略; 然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正, 并将纠正后的实例加入到干净集, 再重新训练集成分类器; 重复实例选择与纠正过程直到噪声集中所有的实例被纠正; 最后用最后一轮训练得到的集成分类器对所有实例进行纠正. 在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.
文章导读
随着计算机技术和互联网技术的飞速发展, 当今社会进入了大数据时代, 数据的重要性也变得越来越高. 而与此相关的人工智能领域, 例如目标检测[1]、图像识别[2]和语音识别[3]等, 对数据的需求也在不断提高. 但是, 这些图像和语音类数据需要标注的数据量巨大, 采用传统的专家标注方法已经不能满足需求.
近年来, 随着AMT (Amazon mechanical turk)①、CrowdFlower①和Clickworker①等众包平台的出现, 众包技术为获取大量数据标记提供了一种经济、高效的方式. 众包学习也因此成为了一个新兴的研究领域. 在众包学习中, 首先通过在线的平台雇佣多个众包工人, 对每个实例进行标注, 获得该实例的多噪声标记集. 然后通过标记集成算法, 从每个实例的多噪声标记集中推理出一个合理的集成标记. 目前, 已经有研究者在标记集成算法的研究上做了大量工作, 例如: MV (Majority voting)算法[4]、ZC (ZenCrowd)算法[5]、MNLDP (Multiple noisy label distribution propagation)算法[6]、M3V (Max-margin majority voting)算法[7]、QS-LFC (Quality-sensitive learning from crowds)算法[8].
然而, 众包工人在专业知识水平、打标积极性和对评价指标的理解等方面的差异性, 导致数据标注的质量普遍偏低. 因此标记集成算法得到的集成标记中仍然存在一定比例的噪声, 即实例的集成标记与真实标记不一致. 标记噪声的存在会损害数据集的标记质量, 而具有高标记质量的数据集在相关研究和应用技术中又是至关重要的. 所以, 对标记集成后的数据集通过众包标记噪声纠正算法进行纠正从而提高数据集的标记质量具有重要的研究意义.
为了降低标记噪声的影响, 提高标记集成后的数据集的标记质量, 目前已经有研究者在众包标记噪声纠正方向做了一些工作, 主要可分为3类:
1)基于监督学习的众包标记噪声纠正算法. Nicholson等[9]提出了适用于众包领域的标记噪声纠正算法PL (Polishing labels). PL算法通过将数据集分成10个子集, 并在每个子集上训练一个分类器, 由生成的10个分类器对每个实例进行分类投票, 最终将得票最高的标记赋予实例. 而Xu等[10]结合重抽样的思想, 提出了一种基于重抽样的众包标记噪声纠正算法(Resampling-based noise correction, RNC). RNC通过在干净集和噪声集上按照比例多次重抽样训练多个分类器, 再用得到的多个分类器对整个数据集进行纠正, 从而提高数据集的标记质量. 除了以上两种众包标记纠正算法, 部分研究者还将研究的重点聚焦于监督学习领域知识和众包数据集信息的不确定性方法, 其中的代表性算法有AVNC (Adaptive voting noise correction)算法[11]、BMNC (Between-class margin-based noise correction)算法[12]以及CENC (Cross-entropy-based noise correction)算法[13]. AVNC算法提出了众包领域的噪声纠正框架, 利用众包服务提供的标记信息, 估计了众包工人的质量, 并进一步评估了数据集中含有噪声的比例. 然后对实例的噪声等级进行了排序, 最终通过集成模型对被认定为噪声的实例进行纠正. BMNC算法则是利用了众包数据集中实例的多噪声标记集信息, 评估每个实例的集成标记的置信程度, 从而更加精准地过滤出噪声实例, 并通过最终得到的干净集训练分类器对噪声实例进行纠正. 而CENC算法同样利用了众包数据集中实例的多噪声标记集, 计算多噪声标记集的信息熵去评估集成标记的置信程度, 然后在得到的干净集上训练多个分类器对噪声集实例进行预测, 进一步利用交叉熵的思想去衡量噪声集中实例标记的真实分布和预测分布的相似度, 从而实现对噪声实例的纠正, 提高数据集的标记质量.
2)基于无监督学习的众包标记噪声纠正算法. Nicholson等[9]提出了一种基于聚类的众包标记噪声纠正算法CC (Cluster-based correction). 聚类是无监督学习技术, 在噪声处理领域的优势是不依赖实例的类标记. 这种优势的存在使得该方法在性能上往往优于基于监督学习的算法, 但是CC算法在时间效率方面则较差. CC的核心思想是进行多次聚类算法, 在每次聚类执行时, 对每个簇中的实例计算并赋予相同的权重, 权重反映了实例属于不同类别的可能性. 最终根据每个实例的最大权值对实例进行重新标注, 从而提高数据集的标记质量.
3)基于半监督学习的众包标记噪声纠正算法. Nicholson等[9]提出的STC (Self-training correction)算法则是受自训练过程的启发, 首先用过滤器将数据集分为干净集和噪声集, 然后在干净集上训练分类器用于对噪声集中的实例进行预测打标, 再选取每类中打标置信度最高的噪声实例, 将预测标记赋予实例并加入干净集中, 重复上述步骤直到纠正的噪声实例达到设定的阈值. 通过以上步骤, 该算法提高了数据集的标记质量和模型精度.
在上文提到的3类众包标记噪声纠正算法中, 基于监督学习的方法训练分类器估计实例的集成标记质量, 并对噪声实例进行纠正; 基于无监督学习的方法不依赖数据集的集成标记, 通过数据的特征估计实例所属某类的权重; 基于半监督学习的方法是将干净集实例作为已标记实例来训练分类器, 对噪声集实例进行重新标注的方法. 在基于半监督学习的方法中, STC算法因为简单有效, 不需要特定的假设条件而被广泛应用. 但通过对STC算法的分析, 本文发现该算法仍然存在3个方面的不足: 1)当用于训练初始分类器的干净集不能很好表示整个数据空间, 难以反映数据的分布时, STC算法得到分类器的效果较差. 从而较多错误纠正的实例加入干净集, 误差的影响在循环中不断扩大, 导致STC算法效果受损; 2)经过过滤得到的干净集仍然存在噪声实例, 而STC算法是在干净集上训练单个分类器用于纠正噪声集, 因此训练的分类器纠正效果不佳; 3) STC算法是基于半监督学习领域的思想, 未充分利用众包数据集所含的标记信息, 难以取得更好的众包标记噪声纠正效果.
针对STC算法存在的不足, 本文提出了一种基于自训练的众包标记噪声纠正算法(Self-training-based label noise correction, STLNC). 本文同时使用仿真标准数据集和真实众包数据集进行了实证研究, 结果表明在噪声比和模型质量两个度量指标上, STLNC算法比其他五种最先进的标记噪声纠正算法表现更好.
图 1 STLNC算法的框架
图 2 不同T值的STLNC在ionosphere数据集上的噪声比结果
图 3 Leaves数据集上的噪声比对比结果
本文针对众包数据集经过标记集成后仍然存在标记噪声问题, 提出了一种基于自训练的众包标记噪声纠正算法STLNC. 主要创新包括: 1) 在构建空间结构关系阶段, 本文将实例的多噪声标记集转化为标记分布, 根据标记分布信息改进了密度峰值聚类算法, 从而精确地构建数据集中低密度实例指向高密度实例的空间结构关系; 2) 在实例选择与纠正阶段, 根据构建的空间结构关系, 设计了噪声实例选择策略, 同时引入集成学习的思想和标记置信度计算, 设计了新的实例纠正策略, 提高了纠正的准确性.
根据在22个仿真的标准数据集以及8个真实的众包数据集上的实验结果, STLNC与PL、STC、CC、AVNC、CENC五种目前最先进的噪声纠正算法相比, 其性能在数据集噪声比和模型质量两个度量指标上更好, 从而验证了所提出的众包标记噪声纠正算法的有效性和优越性. 但是, 本文方法在算法的过滤阶段并未进行深入的研究, 如何获取更加精确的干净集和噪声集仍然是未来将要面临的难题之一. 因此, 下一步工作将围绕设计更好的过滤策略, 提高过滤效果展开.
作者简介
杨艺
中国地质大学(武汉)计算机学院硕士研究生. 2018年获得中国地质大学(武汉)计算机学院学士学位. 主要研究方向为机器学习与数据挖掘. E-mail: yangyi@cug.edu.cn
蒋良孝
中国地质大学(武汉)计算机学院教授. 2009年获得中国地质大学(武汉)地球探测与信息技术博士学位. 主要研究方向为机器学习与数据挖掘. 本文通信作者. E-mail: ljiang@cug.edu.cn
李超群
中国地质大学(武汉)数学与物理学院副教授. 2012年获得中国地质大学(武汉)地球探测与信息技术博士学位. 主要研究方向为机器学习与数据挖掘. E-mail: chqli@cug.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 15:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社