博文

基于增强混合的一致性自蒸馏长尾视觉识别

已有 757 次阅读 2026-6-3 08:36 |个人分类:文章推荐|系统分类:博客资讯

导读

现实世界数据普遍呈长尾分布，深度模型在此类数据上训练后，极易偏向头部类别，尾部识别性能严重不足。现有方法虽在一定程度上缓解了类别不均衡，但未能有效解决模型预测不确定性高、泛化能力弱这一核心瓶颈。

华南理工大学团队从数据增强与知识蒸馏协同的角度提出一种新思路，在多个长尾基准数据集上取得了显著性能提升。具体方法与实验结果如下文。

标题：Long-tailed visual recognition via consistency self-distillation with augmented mixture（基于增强混合的一致性自蒸馏长尾视觉识别）

作者：Chuanlong Lyu, Yuge Xu, Ziyi Xie

机构：华南理工大学自动化科学与工程学院

引用：Lyu, C., Xu, Y., Xie, Z. Long-tailed visual recognition via consistency self-distillation with augmented mixture. Control Theory Technol. (2026). https://doi.org/10.1007/s11768-026-00329-2

全文链接：https://rdcu.be/fk0b4

摘要

现实世界数据普遍呈现长尾分布，基于此类数据集训练的深度模型往往偏向头部类别，在尾部类别上表现不佳。重加权等现有方法虽显著提升了长尾识别的性能，但未能解决模型预测不确定性大导致深度网络泛化能力弱的问题。针对这一问题，本文提出一种名为增强混合一致性自蒸馏（CSAM）的新型方法，该方法包含增强混合（AM）和一致性自蒸馏（CSD）两个核心组件。AM 生成两种不同类型的增强样本以丰富数据，从而提升模型泛化能力并降低预测不确定性。具体而言，AM 采用弱 - 强增强策略和全局 - 局部混合方法，生成弱增强全局样本和强增强局部样本。CSD 通过从弱增强全局数据的预测中蒸馏知识来正则化强增强局部图像，进一步降低预测不确定性。此外，本文提出一种融合重采样与logits调整的混合重平衡策略，以解决本方法中更为严重的尾部类别压缩问题。所提方法在 CIFAR10-LT、CIFAR100-LT、ImageNet-LT 和 Places-LT 数据集上取得了优异性能，验证了 CSAM 方法的有效性和优越性。

引言

近几十年来，深度学习在图像识别任务中取得了突破性进展，通过在 ImageNet、Places 等大规模标注数据集上训练强大的神经网络，实现了高精度的图像分类。然而，与这些人工构建的平衡数据集不同，现实世界中的数据往往遵循长尾分布 —— 少数头部类别占据了绝大多数样本，而大量尾部类别仅包含少量样本。基于长尾数据训练的深度模型极易受到头部类别的主导，导致尾部类别识别性能被严重压缩，这一问题极大限制了深度学习模型在实际场景中的落地应用。

为解决长尾识别问题，现有研究主要围绕类别重平衡展开，包括重采样和重加权方法。重采样通过过采样尾部类别或欠采样头部类别来获得平衡数据，但过采样易导致尾部类别过拟合，欠采样则会丢失头部类别的重要语义信息。重加权通过增大尾部类别的损失权重来强化其学习，但会损害模型的通用特征表示能力。为此，研究者提出了两阶段训练方案，分别学习鲁棒的骨干网络和平衡的分类器；此外还有基于集成学习的方法，利用多个专家模型协同处理长尾问题。尽管这些方法在一定程度上提升了长尾识别性能，但均未能有效解决模型预测不确定性大的核心问题 —— 同一图像的不同增强视图在模型上的预测结果差异显著，这表明模型过拟合于训练数据的局部特征，对测试图像的微小变化极为敏感，泛化能力较弱。

数据增强是避免过拟合、提升泛化能力的直接手段，通过仿射变换生成新样本可迫使模型学习更鲁棒的不变特征。近年来，混合方法通过组合两个现有样本生成新样本，进一步丰富了数据分布的多样性。此外，自蒸馏技术通过引导模型学习不同增强视图下的一致输出，可有效降低预测不确定性。基于上述分析，本文提出一种基于增强混合的一致性自蒸馏长尾视觉识别方法（CSAM）。本文的主要贡献如下：

（1）提出了一种名为 CSAM 的新型长尾视觉识别方法，通过降低模型预测不确定性来提升泛化能力。该方法融合增强混合与一致性自蒸馏机制，从数据增强和知识蒸馏两个维度协同解决长尾识别中的核心问题。

（2）设计了融合重采样与logits调整的混合重平衡策略，从数据层面和损失层面协同缓解混合方法带来的尾部类别压缩问题，实现了头部与尾部类别性能的平衡提升。

（3）在 CIFAR10-LT、CIFAR100-LT、ImageNet-LT 和 Places-LT 四大主流长尾数据集上进行了广泛实验，结果表明 CSAM 方法显著优于现有主流方法，验证了其有效性和优越性。

结论

本文提出了一种名为增强混合一致性自蒸馏（CSAM）的长尾视觉识别方法，该方法包含增强混合（AM）和一致性自蒸馏（CSD）两个核心组件。AM 通过弱 - 强增强策略和全局 - 局部混合方法生成多样化的增强样本，丰富数据分布以提升模型泛化能力；CSD 通过将弱增强全局样本的预测作为可信教师信号，正则化强增强局部样本的预测，进一步降低模型的预测不确定性。此外，本文设计了融合重采样与logits调整的混合重平衡策略，有效缓解了混合方法带来的尾部类别压缩问题。在四大主流长尾数据集上的实验结果表明，CSAM 方法在整体精度和尾部类别性能上均取得了显著提升，证明了其在降低预测不确定性、提升长尾识别性能方面的有效性。

然而，本研究仍存在一定局限性。在部分场景下，方法在提升尾部类别性能的同时，会轻微降低头部类别的性能；此外，由于每个迭代需要处理两个增强视图，训练过程需要更多的 GPU 内存和计算资源。未来的研究工作将致力于解决这些问题，进一步优化方法的性能和计算效率，同时探索其在目标检测、语义分割等其他长尾视觉任务中的应用。

作者

Chuanlong Lyu 于华南理工大学自动化科学与工程学院获得硕士学位，研究方向包括长尾识别、数据增强和深度学习。

Yuge Xu，华南理工大学自动化科学与工程学院副教授，研究方向涵盖机器学习和智能计算。

Ziyi Xie 于华南理工大学自动化科学与工程学院获得硕士学位，研究方向包括计算机视觉、长尾识别和图像处理。

2024-2025刊期合集（英文）

Volume 23 (February - November 2025)

Issue 4, 2025

Issue 3, 2025 - Special issue on ADRC: New ADRC developments in Ibero-America

Issue 2, 2025

Issue 1, 2025

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024

期刊简介

640 spr.jpg

欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年，原刊名为Journal of Control Theory and Applications，2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办，主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.5)、EI、Scopus (CiteScore 3.2)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号，获得广东省高水平科技期刊建设项目I期(2021-2024年)和II期，2022-2025年进入中国科协自动化学科领域高质量科技期刊目录。

官网：https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿：https://mc03.manuscriptcentral.com/ctt

微信：ControlTheoryTech （欢迎扫码关注期刊微信公众号）