||
开放环境模式识别涉及对已知类别的模式进行分类,并拒识歧义和未知类别的(也称为分布外(OOD))输入。深度神经网络通常在封闭集分类方面表现出色,而在拒识OOD输入方面表现不佳。为了解决这一问题,以往的方法大多采用置信度转换的后处理方式或者训练混合模型,在确保已知类别可区分的同时,OOD输入获得较低置信度分数。中国科学院自动化研究所刘成林研究员团队尝试为分类与拒识任务构建一个统一的开放集分类器框架,其可同时支持分类、OOD样本拒识及错分(歧义)样本拒识。作者将分类与拒识任务形式化为一个带额外未知类的分类问题,并仅在已知类别样本上训练模型。通过使用一对多训练策略结合Dempster–Shafer证据理论,推导得到已知类和未知类的后验概率,对分类和拒识给出了统一的决策规则。该方法同时在分类、OOD拒识和错分拒识方面得到优异性能。相关成果已发表于《机器智能研究(英文)》2024年第5期中。
代码请见
https://github.com/zhen-cheng121/CPN_OVA_unified.
图片来自Springer
全文下载:
Unified Classification and Rejection: A One-versus-all Framework
Zhen Cheng Xu-Yao Zhang Cheng-Lin Liu
https://link.springer.com/article/10.1007/s11633-024-1514-4
https://www.mi-research.net/article/doi/10.1007/s11633-024-1514-4
全文导读
近年来,深度神经网络(DNN)被广泛应用于模式识别领域。不同于依赖人工设计提取特征的传统分类器,DNN通过特征表示学习获得了出色的分类性能。高分类性能是行人重识别、医疗诊断和自动驾驶等高风险应用场景中所需要的。然而,除了分类准确性,DNN却容易受到反常的或离群的输入(也被称为异常的、全新的、未知的、分布外的(OOD)输入等)的影响,例如:那些不属于已知类别的样本(已知类别指的是训练分类器时见过的类别)。
由于训练DNN的主要目标是在特征空间中区分已知类别,因此会将特征空间划分为与已知类别相对应的决策区域。所以,离群输入很可能落入已知类别的决策区域,并以高置信度被归入已知类别,这就带来了过度自信问题。为了解决这个问题,研究人员提出了许多方法来处理所谓的开放集识别(OSR)或OOD拒识/检测任务。
OOD检测可视为OSR的一个子任务,主要涉及OOD样本与已知类(也称为分布内(InD))样本的区分,可以将其看成一个二分类任务。常用的基于多类分类目标(例如交叉熵CE)训练的分类器的输出置信度不能很好地区分OOD输入,如基于最大softmax概率(MSP)的方法,其使用softmax函数的输出作为OOD检测的置信度,不能保证OOD拒识性能。针对这个问题,很多方法设计新的置信度函数通过对分类器输出进行变换来扩大InD和OOD样本之间的输出差距。一些新提出的置信度函数,例如:Energy Score、ViM和KNN等,在OOD检测上的性能取得了显著提升。另一类方法是利用辅助的离群数据,因为模型拒识OOD输入较弱是因为缺乏未知类别分布的知识。其中最有效的方法之一是离群数据曝光(OE),利用自然的离群图像来辅助训练模型。然而,训练过程中并不总是有离群数据,而且很难保证离群数据涵盖各种模式类别。因此,最好设计没有离群数据训练的分类器。
另一方面,开放集识别同时考虑了InD分类和OOD拒识/检测,并假设训练中没有可用的OOD数据,这也称为广义OOD检测问题。OSR的众多方法可以按模型架构(生成式、判别式、混合式)或学习/置信度评分策略(端到端学习或置信度后处理)的维度进行分类。流行的DNN(例如卷积神经网络)属于判别模型,其训练目的是区分已知类别,忽略了OOD输入的边界。生成模型(例如自编码器)为每个类别学习一个子空间或局部区域,OOD检测可以基于已知类别的概率密度函数或到局部区域(或原型)的距离。混合方法,如使用多个模型分别处理分类和拒识任务。在学习层面,卷积原型网络(CPN)和类别语义重建(CSSR)方法是端到端训练模型,其将已知类别的局部分布考虑其中,以便输出距离分数用以区分OOD输入。在后处理方面,很多方法根据预训练网络的logit输出设计OOD的置信度函数,而不考虑训练过程中的问题。
本文试图构建一个统一的OSR框架,使用单个分类器同时执行InD分类和OOD拒识,且无需在训练过程中使用分布外数据,如图1所示。为了对InD和OOD类别之间的边界进行建模,本文使用了一对多(OVA)学习方法,该方法将一个已知类视为正类,而将其余已知类样本的并集视为负类,因此OOD类包含在负类中,且无论是否有真实OOD样本,学习都可以进行。若进一步假设每个已知类别都有一个局部区域分布,使用密度函数、子空间或原型,就可以根据与已知类别的最大概率密度或最小距离来拒识OOD样本。
图1 统一了分类与拒识的模型。该模型的主要目标是尽可能准确地对InD样本进行分类(InD √),并拒识可能分类错误的样本(InD ×)和OOD样本。 通过将二分类概率组合成多分类后验概率,OVA分类器可以在贝叶斯分类框架下进行分析。对于K类分类问题,使用Dempster-Shafer证据理论(DSTE)组合OVA输出的二分类概率,可以得到K+1类(包括OOD类)的后验概率。这一结果使已知类的分类、OOD和歧义(错分)样本的拒识在一个贝叶斯决策规则(最大后验概率决策)中实现。考虑到OVA学习可能会牺牲InD分类的准确性,且各类别logits的独立训练不会考虑到多类别间的边界问题,因此本文还提出了一种混合学习策略,通过将OVA和多类目标(如CE)相结合,从而在实现OOD拒识的同时保持闭集分类的准确性。 为了验证本研究提出的统一OSR框架,本文利用最近提出的卷积原型网络CPN和以ViT为主干网络的原型分类器来完成OVA和混合学习策略,实验结果表明,本研究提出的框架在闭集分类、OOD检测和错误分类检测方面表现出了强劲的性能。本文进一步讨论了统一框架的重要性:(1)统一模型更适用于真实场景。以疾病诊断为例,诊断系统可能同时遇到未知类别的样本和已知类别中的错误分类样本。除了分类能力之外,一个可靠的识别器还应该能够同时检测到这两种不正常的情况。(2)提出一个统一的框架是一个具有挑战性的问题。最近的一些研究呼吁同时处理OOD检测和错分样本检测任务,并表明同时检测两类错误是具有挑战性的任务。本文旨在进一步探索解决这一挑战的方法。 本文的贡献可总结为: (1)本文提出了一个统一的OSR框架,使用单个分类器执行多类分类和OOD检测任务,该框架由OVA学习训练而成,训练中不包含分布外样本。 (2)本文表明,通过使用Dempster-Shafer证据理论组合OVA分类器的二元后验概率,可以从已知类别的OVA分类器输出中获得 (K+1)类别后验概率,从而实现贝叶斯分类框架下的分类和拒识。 (3)为了保持OVA分类器的闭集分类准确性,本文提出了一种混合学习策略,通过结合OVA和多类CE损失来保证分类和拒识性能。 (4)本文利用卷积原型网络和ViT主干实现了OVA框架和混合学习策略,并在流行的OSR和OOD数据集上验证了其在分类、OOD和错分样本检测方面的显著性能。 全文下载: Unified Classification and Rejection: A One-versus-all Framework Zhen Cheng Xu-Yao Zhang Cheng-Lin Liu https://link.springer.com/article/10.1007/s11633-024-1514-4 https://www.mi-research.net/article/doi/10.1007/s11633-024-1514-4 BibTex: @Article {MIR-2023-11-262, author={Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu}, journal={Machine Intelligence Research}, title={Unified Classification and Rejection: A One-versus-all Framework}, year={2024}, volume={21}, issue={5}, pages={870-887}, doi={10.1007/s11633-024-1514-4}} 特别感谢本文通讯作者&中国科学院自动化研究所刘成林研究员,以及本文第一作者&自动化所程真博士对以上内容的审阅和修改! 纸刊免费寄送
Machine Intelligence Research MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文! 说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737 收件信息登记: https://www.wjx.cn/vm/eIyIAAI.aspx# 关于Machine Intelligence Research Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区。 往期目录 2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习... 2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位... 2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计... 2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR) 2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习...... 2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调 2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 2022年第6期 | 因果推理、视觉表征学习、视频息肉分割... 2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等 2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中国科学院自动化所等团队 2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中国科学院自动化所等团队 专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer 澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开 前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查 自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱 约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法 精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战 欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用 专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战 下载量TOP好文 | 人工智能领域高下载文章集锦 (2022-2023年) 引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年) 哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计 Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪 贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习 乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR) 南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器 上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法 前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究 港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法 南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法 ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR) Luc Van Gool团队 | 深度学习视角下的视频息肉分割 专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题 戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络 ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战 专题征稿 | Special Issue on Embodied Intelligence 专题征稿 | Special Issue on Transformers for Medical Image Analysis MIR 优秀编委 & 优秀审稿人 & 高被引论文 (2023年度) 年终喜报!MIR科技期刊世界影响力指数跻身Q1区 (含100份龙年礼包) 双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR 喜报 | MIR 被 EI 与 Scopus 数据库收录02:29
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 01:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社