博文

数据重采样和集成学习在多类不平衡学习中的有效性

已有 2174 次阅读 2026-1-8 20:23 |个人分类:科普|系统分类:科普集锦

数据重采样和集成学习在多类不平衡学习中的有效性

不平衡学习是使用机器学习算法开发分类模型时最常见的挑战之一，因为这些算法通常只在平衡数据集上才能有效工作。许多分类案例都面临类别不平衡的问题，例如医疗保健领域的数据分类、网络安全、金融、制造业、电信和商业。以往的大多数研究都集中在二元类数据集上的不平衡学习。然而，现实问题也涉及包含多个类别的数据集。尽管处理不平衡二分类数据集的方法可以适用于多类别不平衡问题，例如使用一对一或多对多方法，但它们的效果较差。这是由于这两种类型数据集的特征差异，多类别数据集比二分类数据集具有更高的数据复杂性。因此，多类别数据集中的不平衡问题需要专门的方法来解决现有问题。

不平衡数据集的主要问题不仅在于少数类数据的缺乏，还在于存在一些困难因素。迄今为止，还没有关于多类不平衡问题的研究评估过针对这些困难因素的特设方法的表现。根据 He 和 Garcia的研究，类重叠和小交集是导致二元类不平衡学习中分类性能下降的最重要因素。在多类不平衡学习中，一些额外的困难因素增加了问题的复杂性，即数据集中类的配置和类的数量。类的配置对应于数据集中多数类和少数类的组成。数据集中类的数量也会影响多类不平衡学习中的分类性能。正如 Lango 和 Stefanowski指出的，增加类的数量往往会降低少数类实例的召回率。

与之前时期相比，过去五年中关于多类不平衡学习的研宄显著增加。其中大多数研究集中在数据重采样和集成学习方面。已经提出了多种特设性重采样方法，采用不同的方法，如基于插值的重采样、基于边界的重采样以及其他复杂机制，这些机制整合了数据聚类和邻域选择，以确保在适当区域生成合成实例。另一方面，基于装袋（bagging）和提升（boosting）机制的多项集成学习方法已被提出。为了提升性能，大多数集成方法将数据重采样技术整合到集成机制中，以平衡类别分布。SMOTE 是集成方法中常用的一种方法。

针对多类不平衡学习问题所提出的各种策略和机制，需要进行全面评估和审查，以识别当前研究中尚未解决的问题和空白。鉴于这些挑战，综述论文《Effectiveness of data resampling and ensemble learning in multiclass imbalance learning》填补了这些空白，并为该领域的未来研究和开发提供有价值的参考。随着研究领域的快速发展，已经发表了大量综述和调查文章。然而，关键的研究空白仍然存在，需要进一步深入探讨，具体包括：

1. 缺乏全面研究多类不平衡学习中方法的文献。

2. 缺乏评估和分析现有方法与基线性能相比所实现的性能改进程度的研究。

3. 缺乏评估多类不平衡学习中方法性能与难度因素之间关系的文献。

因此，综述论文《Effectiveness of data resampling and ensemble learning in multiclass imbalance learning》整理并分析了现有方法，包括数据重采样和集成学习方法，以获得有价值的见解并为该领域的知识体系做出贡献。主要贡献如下：

1. 提供对方法的全面综述，重点关注数据重采样和集成学习这两种最广泛使用的方法。综述中的大多数方法在以往的研究中尚未得到深入讨论。综述包括对方法性能的批判性分析和实证评估。这有助于理解每种方法的优势和局限性。

2. 通过将性能与基线性能进行比较来评估有效性，以评估每种方法实现的改进。分析通过基于不平衡分类中使用的相关指标对方法进行性能比较来进行。这有助于评估每种方法的性能并确定未来改进的领域。

3. 提供方法性能与难度因素之间的关系分析。该分析包括在不同不平衡率、类别重叠百分比、类别数量和类别配置下特设方法的性能。理解这种关系能够帮助识别使用数据重采样或集成学习解决多类别不平衡数据集的最佳策略。

4. 为多类别不平衡学习中的数据重采样和集成学习未来工作提供见解和研究空白。未来工作包括开发过采样和欠采样机制、特征工程、投票机制，以及为集成学习应用特定的基础分类器。

整篇综述论文讨论了关于多类不平衡学习的先前综述和调查论文。提供了不平衡分类的总体概述，以支持理解其核心问题和进展。讨论了多类不平衡学习中的关键挑战，包括多类重叠、小的不连续集、类别配置和类别数量。概述了多类不平衡学习中的最先进方法，详细介绍了数据重采样和集成学习方法（图1）。进一步根据重采样范围、步骤和机制对重采样方法进行细分。它还基于机制、算法、基本分类器、数据处理策略和聚合方法探索集成学习方法。回顾了多类不平衡学习研究中常用的数据集。解释了近期研究中使用的各种性能指标。评估了这些最先进方法的有效性方法，其中包含比较重采样和集成学习方法性能，以及与基线性能的对比。总结了经验教训，并提出了未来研究的方向。

图1 处理多类别不平衡数据集分类的方法分类。最常见的方法是数据重采样和集成学习

该篇综述在多类不平衡学习背景下回顾了各种数据重采样和集成学习方法。讨论了 14 种数据重采样方法和 12 种集成学习技术。进行了比较分析，以评估每种算法在各种数据集上提高分类性能的有效性。作者们也对数据重采样和集成学习中的特设方法进行了深入综述，以应对多类不平衡学习的挑战。每种方法都进行了详细说明，以揭示其机制、优点和局限性。此外，回顾了 19 个涉及小型实验的常用数据集，用于测量基准性能。这些数据集根据类别分布分为三组：渐进式不平衡、多多数类和多少数类。随后，针对多类别不平衡学习中的各种难度因素，对几种数据重采样和集成学习方法进行了比较分析。该分析突出了每种方法的优势和劣势，揭示了未来探索的重要经验和研究空白。

然而，这项研究存在局限性。比较性能分析依赖于以往研究的结果，包括所使用的评估指标和数据集。该论文没有探讨分类性能与数据集中特征数量的关系。也没有对每个数据集中的小分离集及其对每种方法分类性能的影响进行分析。需要更深入的调查来了解特征数量和小分离集的存在如何影响不同方法的性能。

此外，由于先前工作中提供的实验结果存在局限性，无法比较讨论的所有方法。文章也仅关注静态数据集，排除了对数据流中不平衡方法的综述。根据观察，这个问题有其自身的挑战和方法，与静态数据中的方法不同，因此更适合被视为该领域的一个独立研究方向。

总之，该文有助于理解各种数据重采样和集成学习方法在解决多类不平衡问题中的工作原理和有效性。总体而言，这些方法的进步在多类不平衡学习性能方面显示出积极的改进。未来的研究应致力于实现更好的性能，特别是在多少数类数据集和高类别重叠的数据集上。

参考文献

[1] Fachrie, M., Musdholifah, A. & Pulungan, R. Effectiveness of data resampling and ensemble learning in multiclass imbalance learning. Artif Intell Rev 58, 368 (2025). https://doi.org/10.1007/s10462-025-11357-w

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC