drwuHUST的个人博客分享 http://blog.sciencenet.cn/u/drwuHUST

博文

基于池的无监督线性回归主动学习

已有 451 次阅读 2020-7-27 01:14 |个人分类:机器学习|系统分类:科研笔记


 在机器学习任务中,往往需要大量的有标签训练数据以获得更好的性能。但是,在许多实际应用场景中,获取未标注的数据相对容易,标注过程却很困难,通常需要投入大量的时间和经济成本。例如,在语音信号的情感估计问题中,可以很容易地记录大量语音,但是要对语音进行三个维度的评估 (愉悦度、唤醒度和优势度),评估者必须反复倾听,仔细检查。此外,由于情感估计具有主观性,而且部分数据可能只存在细微差异,通常需要多个评估者,例如,VAM 语料库用到 6-17 个评估者,IADS-2 用到至少 110 个评估者。在石油和天然气行业中,研究油井压裂后180天的累计产油量预测问题有利于提高采收率,输入信息(油井的压裂参数,例如油井位置、射孔长度、区域/孔的数量、注入的泥浆//砂的体积等)可以在压裂操作期间记录,但要获得地面产量(压裂后180天累计产油量),至少需要等待180天。

如下方法可以用来应对机器学习中训练数据不足的问题:

1.      正则化:通过加入合理约束来提高模型泛化性能,比如LASSO引入稀疏性,岭回归让回归系数不要过大。

2.      迁移学习:使用来自相关或相似任务的数据或信息来提高在新任务中的学习性能,从而可以减少来自新任务本身的数据量。

3.      半监督学习:有效利用无标注数据里面隐含的信息,比如协同训练。

4.      主动学习:从大量无标注数据中选择少量最有用的数据来标注(并非所有训练数据都是平等的),从而可以用最少的标注数据训练出一个好的模型。

主动学习可用于分类问题和回归问题。已有许多用于分类的AL方法被提出,但回归任务中的AL方法相对较少。这些主动学习回归(Active Learning for RegressionALR)方法有基于流或基于池的应用场景,本文考虑的是后者,即给定一个未标注样本池,ALR需要最优地选择一些样本进行标注,从中训练出一个较好的线性回归模型.

现有的大多数基于池的ALR方法都考虑的是较简单的有监督场景(图1),即能够获得少量带标签的样本,建立初始的回归模型,然后根据模型选择后续的样本交给专家进行标注。经过调研,我们只发现在四项研究中明确考虑了完全无监督的基于池的ALR场景,即在没有任何标签信息的情况下,选择最有价值的初始样本进行标注,这也是本文的重点。

                                               

ALR2.jpg


具体地说,本文考虑以下问题: 在给定大小为N的未标注样本池中,如何最佳地选择初始的M个样本进行标注,从而构建较好的线性回归模型? 这里的M是通过用户指定(通常,随着M变大,ALR的优势会逐渐减弱)。在本文中,我们仅关注线性回归模型。

我们之前的研究提出了以下三个基于池的有监督ALR方法应该考虑的标准。这些标准也适用于无监督的ALR问题:

  • 信息性:可以通过不确定性(熵、到决策边界的距离、预测的置信度等)、模型改变期望(expected model change)、误差缩减期望(expected error reduction)等来度量。

  •  代表性:可以通过与目标样本相似或接近的样本数量来度量。跟目标样本相似或接近的样本越多,那么该目标样本代表性越强。此标准优先选择靠近簇中心的样本,或者分布稠密处的样本,可防止选择离群点。例如在下图中,需要构建一个回归模型从输入x1x2中预测输出。两个绿色的点是已经选中的待标注样本,现在需要从灰色的点中选出第3个待标注样本。很显然,从包含`A'的簇中选出一个样本比选择样本`B'更好,因为`A'处样本稠密,代表性强,而样本`B'远离其他样本,很可能是个离群点,选出后对构建回归模型有害无利,反而不如只用最初选出的两个绿色样本的效果。

  • 多样性:所选样本应尽可能分散在整个输入空间中,而不是一个小的局部中,以便学习一个良好的全局模型。例如下图中,绝大部分样本分布在3个簇中,那么选择3个样本时,应该从3个簇中分别选出一个,让样本更加多样,而不是只从其中一个或两个簇中选。

多样性和代表性经常会有一定的冲突,所以应该折中平衡考虑。一个常用的方法是先对所有待选样本聚类,然后选取不同簇中靠近簇中心的样本。

IRD.jpg

 

本文中,我们提出了一种基于信息性-代表性-多样性的ALR方法。通过同时考虑主动学习中的三个重要标准: 信息性、代表性和多样性,从而确定要查询的M个初始样本。在3种不同的线性回归模型和来自不同应用领域的12个数据集上的实验表明,与3种已提出的ALR方法相比,本文提出的IRD方法所选择的M个样本可以实现更好的性能,如下图所示。

IRD3.jpg

 

完整论文地址:https://arxiv.org/abs/2001.05028

 




http://blog.sciencenet.cn/blog-3418535-1243739.html

上一篇:脑机接口中迁移学习的完整流程
下一篇:IEEE 投稿与 arXiv

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-9-22 10:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部