drwuHUST的个人博客分享 http://blog.sciencenet.cn/u/drwuHUST

博文

基于贪婪采样的回归主动学习方法

已有 941 次阅读 2019-8-16 21:14 |个人分类:机器学习|系统分类:论文交流

回归是机器学习中的重要问题,其输出为连续值,有别于分类问题中的离散值。一般来说,无论是回归问题还是分类问题,训练数据越多,建立的模型就越准确。然而,现实应用中往往无标注的数据很容易获得,但是给数据加上标注却费时费力。比如情感计算中评估语音或视频表达的情感的问题。获取语音很容易,但是评价语音蕴含了什么情感,需要花费很多人力和时间。

如下方法可以用来应对回归问题中训练数据不足的问题(其实对分类问题也适用):

  1. 正则化:通过加入合理约束来提高模型泛化性能,比如LASSO引入稀疏性,岭回归让回归系数不要过大。

  2. 迁移学习:使用来自相关或相似任务的数据或信息来提高在新任务中的学习性能,从而可以减少来自新任务本身的数据量。

  3. 半监督学习:有效利用无标注数据里面隐含的信息,比如co-training。

  4. 主动学习:从大量无标注数据中选择少量最有用的数据来标注(并非所有训练数据都是平等的),从而可以用最少的标注数据训练出一个好的模型。

针对分类问题的主动学习已经有很多方法,但是对回归问题的主动学习目前研究比较少。这里我们考虑基于数据池的顺序回归主动学习:给定一个数据池,里面所有样本都是无标注的。如何依次最优地从数据池中选择少量样本,加上标注,然后根据这些带标注样本和无标注样本,训练一个回归模型,对剩下的样本进行准确标注。我们的目的是在给定可以加标注的样本数量的前提下,尽量使训练出的模型性能最佳。

基于文献中已有的针对样本输入的贪婪采样回归主动学习算法(GSx),我们提出了两种改进:

  1. GSy:用当前已标注样本构建一个回归模型,用于估计所有未标注样本的输出,然后在输出空间中选择多样性最好(离当前已标注样本距离最远)的未标注样本进行标注。直观上讲,输出空间中的距离可以看成是带权重的输入空间距离,因此相对于GSx,GSy在计算多样性的时候进一步考虑了不同特征的权重,是更合理的选择。

  2. iGS:理论上GSy性能比GSx要好,但是因为GSy依据的回归模型是在很少量数据上面训练得来的,可能不是很可靠,导致选择的样本不一定总是很好。iGS是GSx和GSy的组合,即同时考虑输入和输出空间的多样性,这样GSy出错的时候,因为还有GSx的参与,也不至于错得太离谱,所以整体性能应该比GSy更可靠一些。


AL.png


我们在10个UCI和CMU数据集、以及基于头皮脑电EEG的驾驶员疲劳状态估计问题中验证了所提出的GSy和iGS的优秀性能。整体而言,GSy比目前文献中所有回归主动学习方法效果要好,即给定需要标注的样本个数,GSy能取得更小的回归均方误差和更大的相关系数。而iGS的性能进一步优于GSy。

 

本工作由华中科技大学人工智能与自动化学院伍冬睿教授、黄剑教授和澳大利亚悉尼科技大学Chin-Teng Lin教授共同完成,发表于Information Sciences(IF=5.524)。全文请见:

D. Wu, C-T Lin and Jian Huang, "Active Learning for Regression Using Greedy Sampling," Information Sciences, vol. 474, pp. 90-105, 2019.

或arXiv版本:https://arxiv.org/abs/1808.04245




http://blog.sciencenet.cn/blog-3418535-1193917.html

上一篇:Patch Learning (PL)
下一篇:情感计算数据标注中的多任务主动学习

1 伍赛特

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-9-19 10:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部