drwuHUST的个人博客分享 http://blog.sciencenet.cn/u/drwuHUST

博文

迁移学习中的负迁移:综述

已有 1259 次阅读 2020-11-8 11:12 |个人分类:机器学习|系统分类:科研笔记

传统机器学习的一个基本假设是训练和测试数据来自同一个分布。然而,在 现实应用中这个假设往往不能满足。比如,两个图像数据库可能是用不同的相机在不同光照条件下采集的;脑机接口中的被试往往具有很大的个体差异。所以,从训练集上获得的模型在测试集上的泛化能力往往不好。

一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本,然后从中训练一个有监督机器学习模型。然而,现实应用中并不能总是获得这样的大量带标注样本,比如因为标注成本高、隐私考虑等。

更好的解决办法是使用迁移学习,即使用源域的数据或信息来帮助目标域的学习。这样,目标域只需要很少或完全不需要带标注样本。

然而,迁移学习并不总是有效的,除非其基本假设都得到满足:1)源域和目标域的学习任务相似或相关;2)源域和目标域数据分布比较接近;3)存在一个源域和目标域同时适用的模型。当这些假设不满足时,负迁移就会产生,即使用源域的数据或知识反而会让学习性能变差,不如直接用目标域的数据进行训练,如下图所示:

 

NT.png


可靠的迁移学习需要同时考虑3个问题:迁移什么?如何迁移?何时迁移?大多数迁移学习研究只考虑了前2个问题。

尽管负迁移是个很常见和严重的问题,人们也提出了很多克服负迁移的方法,但是目前并不存在关于负迁移的详尽的综述。我们最近的综述文章填补了这个空白。我们从4个方面系统性地归类和总结了近100种不同的克服负迁移的方法:源域数据质量,目标域数据质量,域间差异,集成性的算法,如下图所示:

 

overview.png


本文原文可以在此下载2020_NT_arXiv.pdf。请各位专家同行多多批评指正!




http://blog.sciencenet.cn/blog-3418535-1257527.html

上一篇:脑机接口中的后门攻击
下一篇:TSK模糊系统回归模型的梯度下降训练新方法

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-1-21 07:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部