王小平的博客分享 http://blog.sciencenet.cn/u/SciApple2014 关注计算机软件、人工智能和社会计算领域的创新,关注科学人文和社会文化的传播

博文

[转载]ICML 2016|「Data-Efficient 机器学习」研讨会

已有 5111 次阅读 2016-6-12 21:54 |个人分类:人工智能|系统分类:观点评述|文章来源:转载

ICML 2016|「Data-Efficient 机器学习」研讨会已接收论文概述:如何让机器学习更高效的利用数据

选自 Google

机器之心编译

参与:吴攀、夏梦、赵子钦、Rick、盛威、李亚洲

机器学习国际会议 ICML 2016 将于 6 月 19 日——24 日在纽约召开,其中将有一场 Data-Efficient Machine Learning 的研讨会,届时将会讨论「如何让机器学习高效利用数据」的各类方法与所面临的实际挑战。这篇文章对这场研讨会接收的论文做了一个概述性的总结与介绍(文后附论文下载)。

机器学习近来的一些研究成果已经解决了从大量数据中学习的问题。现在在对象检测与识别、机器翻译、文本转语音、推荐系统和信息检索等问题上,我们已经有了高度可扩展的解决方案,所有这些问题在经过大量数据的训练之后都能实现当前最佳的表现。在这些领域,我们目前面临的挑战是如何使用更少的数据在更短的时间内高效地学习和实现同等的性能表现。而其它问题领域——如个性化医疗、机器人强化学习、情感分析和社区发现等——都要么被定义为小数据量问题,要么就被定义为小数据量问题集合而成的大数据量问题。以一种样本高效(sample-efficient)方式学习的能力在应对数据有限领域的问题时是必需的。总的来说,这些问题突出了机器学习高效利用数据(data-efficient machine learning)方法的需要:在复杂领域内不需要大量数据就能学习的能力。

本次研讨会将讨论让机器学习高效利用数据的各类方法与我们所面临的实际挑战。能够证明机器学习高效利用数据的可能性的方法有很多,包括:

  • 整合的专门领域知识和更通用的方法之间的权衡考虑;

  • 利用我们数据中的结构化知识,例如对称和其它不变性的性质;

  • 应用 Bootstrapping 和数据增强技术对可用数据进行数据统计上的再利用;

  • 使用半监督学习技术,如在我们可以使用生成模型更好地引导判别模型训练的地方;

  • 跨领域的知识归纳(迁移学习);

  • 使用主动学习贝叶斯优化进行实验设计和数据高效的黑箱优化;

  • 应用非参数方法、one-shot learning 和贝叶斯深度学习

这个跨学科研讨会的目的是为来自各个领域的研究者提供一个平台,涵盖的领域包括:迁移学习、贝叶斯优化、bandits 算法、深度学习、近似推断、机器人学习、医疗、计算神经科学、主动学习、强化学习和社交网络分析;再到数据高效机器学习问题上的见解和观点分享,讨论挑战以及辩论实现更为数据高效的机器学习的路线图。

接收的论文

一、强化学习类

1. 论文:用于强化学习的数据高效的离策略策略评估(Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning)

作者:Philip Thomas 和 Emma Brunskill

摘要:在这篇论文中,我们提出了一种根据可能由不同策略生成的历史数据预测强化学习策略性能的新方法。对于糟糕的策略可能导致危险或高昂成本的应用而言,根据历史数据评估策略的能力是很重要的。验证表明,我们的算法得到的评估通常比现有方法的平均平方误差低几个数量级——这能更为高效地利用现有的数据。我们的新评估器基于两个改进:一个双倍稳健评估器(Jiang & Li,2015)的扩展和一种基于评估模型和评估重要性采样之间混合的新方法。

2. 论文:使用贝叶斯神经网络动态模型提升 PILCO(Improving PILCO with Bayesian Neural Network Dynamics Models)

作者:Yarin Gal, Rowan Mcallister 和 Carl Rasmussen

导语:强化学习算法通过试错来学习控制任务,这有些类似于儿童学习骑自行车。但在真实世界任务中进行试错具有显著的时间和资源成本。动态模型允许代理将其关于系统动态的知识归纳为其它的未被观察到的状态。概率动态模型让代理可以规划和预测中的过渡不确定性(transition uncertainty),从而进一步提高数据效率。PILCO 是一种基于数据高效的概率模型的策略搜索算法,可通过一个高斯过程(GP)动态模型传播不确定性状态。但使用高斯过程的 PILCO 存在「不考虑后续状态过渡之间的模型不确定性中的时间相关性」和「难以向高维观察空间进行扩展」等缺点。在这里我们尝试使用贝叶斯深度动态模型替代 PILCO 中的高斯过程,在保持框架的概率性本质和数据有效性优势的同时解决上述的缺点。实验表明,我们的方法和现有的强化学习相比表现出了几个数量级的数据效率提升。

3. 论文:使用 PILCO 和定向探索的数据高效的策略搜索(Data-Efficient Policy Search using PILCO and Directed-Exploration)

作者:Rowan McAllister, Mark van der Wilk 和 Carl Rasmussen

导语:强化学习算法能通过试错学习来解决一般的序贯决策问题。许多强化学习算法被证明能找到一个好的或最佳的控制器,但也可能需要为此与环境进行很多交互。对真实世界任务而言,这往往并不实用,因为学习器与环境的交互既费时成本又很高。这里我们提出一种 PLICO 的扩展——PLICO 是一种用于连续状态和行为空间的基于强化学习的模型,其已经在多种任务中表现出了前所未有的数据效率,例如车杆摆动问题(cart-pole swing-up problem)。有意思的是,这样的性能的实现并没用到任何刻意的探索。我们引入了一种用于平衡探索和开发(balancing exploration and exploitation)的方法,这种方法基于对损失中方差减少的评估,使用了很可能被观察到的数据,并得出了初步的结果。

4. 论文:网络之上的序贯决策:以优惠券为目标(Sequential Decision Making over Networks: Coupon Targeting)

作者:Angela Zhou, Haitham Bou Ammar 和 Warren Powell

摘要:我们建模了一个「在社交网络上分发优惠券」的共同学习(joint learning)和优化问题,其中的消费者反映模型是未知的。这些模型参数中的不确定性会导致「选择提供哪种折扣」中对「探索-开发(exploration-exploitation)」的自然的权衡,而在市场营销活动中选择包括哪些消费者也是一个随机子集选择问题。我们采用了一种知识梯度(Knowledge Gradient),这种知识梯度带有来自最佳学习的离散先验(Discrete Priors);然后我们得到了统计学上的收入显著增加和适量取样噪声下通用稳健性(general robustness)的提升。我们整合了关于用户连接的社交网络信息并最优化地学习了潜在的客户群参数,同时也考虑到了收入上的网络效应。我们的不确定性之下的取样方法可与使用最优信息进行最优决策的策略实现方法相竞争;但是,实现的收入却比预期的低。

5. 论文:用于稳健的强化学习的交替最优化和求积(Alternating Optimisation and Quadrature for Robust Reinforcement Learning)

作者:Supratik Paul, Kamil Ciosek, Michael Osborne 和 Shimon Whiteson.

摘要:贝叶斯优化已成功地应用于多种强化学习问题。然而,传统的模拟器中的学习优化策略方法并不会通过调整特定的环境变量来利用改善学习的机会——环境变量是指在模拟器中一个物理但可控的环境设置中由环境随机确定的状态特征。本论文思考了发现最优策略的问题,同时也考虑了环境变量的影响。我们提出了交替最优化和求积算法(alternating optimisation and quadrature algorithm),其使用贝叶斯优化和贝叶斯求积来解决这样的环境设置,并且在明显罕见的事件存在时是稳健的,这可能不能在随机取样的情况下观察到,但却对最优策略的确定存在相当可观的影响。我们的实验结果表明我们的方法学得比现有的方法更好更快。

二、深度学习类

1. 论文:Neural Statistician

作者:Harrison Edwards 和 Amos Storkey

摘要:一个高效学习器会反复使用已习得的知识及方法处理新问题,这对机器学习器来说,意味着理解数据集中的相似性。为了做到这一点,需要认真处理模拟的关键对象——数据集,而非单个数据本身。为了达成这一目标,我们演示了一个自变编码的扩展,它能以无监督的方式学习计算表征或者统计数字。这个被训练的网络为每个数据集创建能概述生成模型的统计数字,从而确保在监督及非监督任务中学习新数据集的高效性。我们在多样实验中阐明了它的灵活性。

2. 论文:使用 Stick-Breaking 先验的非参数深度生成模型(Nonparametric Deep Generative Models with Stick-Breaking Priors)

作者:Eric Nalisnick 和 Padhraic Smyth

摘要:我们将随机梯度变分贝叶斯算法(Kingma & Welling, 2013)推广到 Stick-Breaking 先验,前者是解决近似后验推断的一种「黑箱」方法。这个创新使我们得以用无穷维隐变量来重新定义深度生成模型(deep generative models/DGMs)。

3. 论文:字符级 RNN 训练表的效率评估(Efficiency Evaluation of Character-level RNN Training Schedules)

作者:Cedric De Boom, Sam Leroux, Steven Bohez, Pieter Simoens, Thomas Demeester 和 Bart Dhoedt

摘要:我们提出了四个出自同一字符级循环神经网络的训练和预测表,并依据模型有效性中的训练时间和可见的训练数据量来测试表格功效。我们发现对于训练和预测表的选择,可能为给定训练预算的预测效果带来相当大的影响。

4. 论文:生成型对抗网络的半监督学习(Semi-Supervised Learning with Generative Adversarial Networks)

作者:Augustus Odena

摘要:通过把判别网络推广到输出类标签,我们将生成型对抗网络(Generative Adversarial Networks/GANs)拓展到半监督语境中。我们使用数据集中的同一类输入数据训练出一个生成模型 G 和一个判别模型 D。训练过程中,D 用来预测出输入数据在 N+1 类中的位置,然后添加额外一类来对应 G 的输出数据。我们发现使用这种方法能够创造出一个更高效的数据分类器,并且比普通 GAN 生成的样本质量更高。

5. 论文:运用深度学习自动检测癫痫发作(Automatic seizure detection using Deep Learning)

作者:Pierre Thodoroff 和 Joelle Pineau

概述:癫痫是一种神经失调症,影响着全球超过 6500 万的人口,其特点是大脑中过度或反常的神经活动(Fisher et al., 2014)。通过脑电图(electroencephalograms/EEG)监测大脑活动一直是癫痫诊断的主要技术。癫痫发作过程很罕见(研究样本显示每5小时发作30秒),使得经验丰富的神经生理学家的问诊费用高昂而且耗时。因此准确的自动检测算法可被用来预诠释长周期记录。

癫痫发作呈现出高度不稳定性。事实上不同病患的脑电图癫痫表现差异很大。这种多样性使得准确的自动癫痫检测异常困难。

自动检测算法主要是使用了单变量和双变量特征而发展起来(Ramgopalaet al., 2014)。为了提高自动发作检测在患者内部和患者之间的泛化误差,我们研究了深度学习在这个不平衡设定中提炼有效特征的可能性。运用深度学习检测发作的主要问题在于可用的正样本数量太少(比如发作次数)。在公开可用的最大样本数据集中,只有 173 例发作被记录下来,即平均每个病患在 900 小时脑电图测试中出现 7 次癫痫发作。这相对于有着百万正样本的传统深度学习数据集显得微不足道。我们提出的架构结合了数个卷积层和一个叠加循环层。

我们介绍了三种构成这个有效样本模型的基本要素:

  • 融合了领域知识的时空网络架构

  • 在1s windows 中对卷积层的预训练

  • 病患间的迁移学习,以促进特殊病患分类器的训练

6. 论文:细粒度分类的分布式 Doc2Vec 模型(Distributed Doc2Vec Models for Fine-Grained Classification)

作者:Enoch Yeung, Lauren Charles-Smith 和 Courtney Corley

摘要:我们考虑使用深度神经网络嵌入来进行细粒度文本分类。标准的做法是训练出一个全局深度神经网络来同步学习所有类别文本数据的嵌入。然而,这种方法在训练很大的数据集时效果并不好,而且会增加类特征的复杂性。我们提出了一种分布式深度学习方法,它通过分布采集出反映类结构先验知识的深度神经网络,来学习每个类特征。在使用推特数据进行区域识别任务中,我们阐释了这个带有特定类谷歌 Doc2Vec 模型的结构化学习范式。

7. 论文:循环神经网络的一个理论基础应用(A Theoretically Grounded Application of Dropout in Recurrent Neural Networks)

作者:Yarin Gal

导语:基于序列的循环神经网络(RNNs)模型是神经语言理解,语言生成,视频处理,及许多其他任务的关键所在。它很强大,在许多任务中都展现出卓越性能,但是过渡拟合得太快。缺乏规则化的 RNN 模型很难处理少量数据,因此研究者们为了避免过渡拟合,通常使用一些较早停止进程,或者小巧且未细化的模型。Dropout 是一个受欢迎的规则化技术,其中的网络单元在训练(停止)的过程中会被随机掩盖掉。然而这个技术还从未被成功应用在RNNs上。这篇论文在这些问题上进行了探讨。

三、概率推理和贝叶斯分析

1. 论文:先验置换的高效贝叶斯推断(Efficient Bayesian Inference with Prior Swapping)

作者:Willie Neiwanger 和邢波

概述:在贝叶斯方法因其合并有用的先验知识而被称赞时,在实际中,适用于计算便利和易处理推断的先验知识被使用的更加普遍。在这篇论文中,我们调查了一下几个问题:对一个给定的模型,是否可能使用任何便利的先验推论出一个错误的后验?然后,给定一些真正的先前兴趣,能够很快的将这个结果转换成真正的后验?

直观地,我们的策略如下:对一个给定的模型,我们首先选择任何计算便利的假先验,进行推论,得出了假后验。然后,我们使用我们推论出的假后验、一个真兴趣先验和这个假先验,通过一种我们称之为先验交换的方法从真后验中有效的产生样本。

2. 论文:Regression with n->1 by Expert Knowledge Elicitation

作者:Marta Soare, Mohammad Ammad-Ud-Din 和 Samuel Kaski

摘要:我们考虑了「极小n极大p」时的回归特性。特别是,我们专注于使用相比于维度 p 如此小的样本规格 n 时 ,即使 n → 1,没有先验知识也无法估计这一预测器。这种设置常常出现在个性化医药领域,比如基于含有噪声的高维度基因组学数据为个体患者预测治疗结果。少量的观察和结构数据信息在这样的情形下是不够的。剩余的信息来源就是专家的知识,如果能够进行有效地提取和使用,这会产生重大影响。我们公式化了这一推断问题,在节省预算上寻求专家的反馈,提出简化后的专家引导案例的算法,得到引导策略最优的情形。模拟专家的实验证明专家的知识彻底改善了预测的准确性。

3. 论文:基于多类输出编码学习的高效数据算法(Data Efficient Algorithms for Multi-class Output-code Based Learning)

作者:Nina Balcan, Travis Dick 和 Yishay Mansour

概述:我们对于现在流行的一对多以及(纠错)输出编码的多类算法技术提出了一种新的观点。我们在一个案例中展示了它们能够成功从标签数据中进行学习,这些技术会暗中假设这些类别如何关联的结构。通过明确这个结构,我们能够设计出高数据效率的算法来复原基于有限的标签数据的类别。我们为许多通用研究案例提供结果,比如代码字符之间的汉明间距(Hamming dsatance)较大,或是更具有挑战性的案例,比如代码字符没有很好的分离,却能它满足一个需要每个语义特征都十分重要的直观的边界特性条件。

3. 论文:结合独立后验的分层模型贝叶斯推理(Bayesian inference in hierarchical models by combining independent posteriors)

作者:Ritabrata Dutta, Paul Blomstedt 和 Samuel Kaski

4. 论文:通过功率期望传递实现的贝叶斯高斯过程状态空间模型(Bayesian Gaussian Process State Space Models via Power-Expectation Propagation)

作者:Thang Bui, Carl Rasmussen 和 Richard Turner

导语:在这项工作中,我们展示了一个基于功率期望传递(Power Expectation Propagation)的近似推断计划,这项计划可以学习 f 和潜在变量 x 的传递函数。在 Deisenroth & Mohamed (2012) 中,EP 就已被考虑过用于GP-SSM,然而,这项工作假想了一个真实世界中通常不切实际的动态,并且只推论出一个 x 的近似后验。关键是,在这项 EP 计划中缺乏稀疏性导致的大量计算复杂性。McHutchon (2014) 研究了一个 EM 方法来学习传递函数,这个方法中的求期望(E-step)像在 Deisenroth & Mohamed (2012) 中那样使用了 EP。相比之下,在这篇论文中提到的方法则使用了 PEP ,以更加易于计算的方式为 f 和 x 提供近似贝叶斯的预测。重要的是,PEP 提供了一个灵活的近似推理框架,其中有着 EP 和 结构化的变分推断(VI)应对特殊情形的处理。

5. 论文:通过可解读的特征区别分布特性(Distinguishing Distributions with Interpretable Features)

作者:Wittawat Jitkrittum, Zoltan Szabo, Kacper Chwialkowski 和 Arthur Gretton

摘要:在空间或频率位置(也就是特征)功能评测分析期望的差别总和给定的情况下,对这篇论文提出了两个概率分布的半度量。通过优化使用这些特征的的一个统计测验的功率下界,选取这些特征以便于最大化分布的区别性。结果是对于两种分布的一种可被翻译的隐晦指示,这个指示说明了两种分布区别在哪、怎样产生的区别、哪个能在更高维度被使用,以及区别何时在傅里叶域中被定位。一个现实中的基准图片数据证明了返回的特征提供了有意义的指示信息,指明了分布是怎样区别于彼此的。

6. 论文:测量约束下的极小极大线性回归(Minimax Linear Regression under Measurement Constraints)

作者:Yining Wang 和 Aarti Singh

摘要:我们考虑了在测量约束下的线性回归问题,并得到了计算上可行的二次抽样策略来对一个线性回归模型 y = Xβ + ε 的一小部分数据点进行抽样。在固定的设计配置下,这个二次抽样算法对回归参数 β 的估算进行了(极小极大)最优化,提升到了一个非常小(1+)的相关因子。现实的数据实验证实了我们基于二次抽样的线性回归算法相较于其他竞争者的有效性。

7. 论文:进化的取样方法能否提升 Bagged 整体效果?(Can Evolutionary Sampling Improve Bagged Ensembles?)

作者:Harsh Nisar 和 Bhanu Pratap Singh Rawat

摘要:P&C(Perturb and Combine)组算法通过扰乱训练集或训练结构产生了多种版本的预测变量并将它们结合成一个单一预测变量(Breiman, 1996b)。这样做的动机是希望提高不稳定层次和回归方法的准确性。其中最知名的一种方法就是 Bagging。Arcing 或 AR&C(Adaptive Resampling and Combining)方法,比如 AdaBoost,都是 P&C 方法的更加聪明的变种。在抽象拓展层次中,我们在 P&C 下为一个叫做 ES(Evolutionary Sampling)的新方法奠定了基础。我们运用 Evolutionary 算法在特征空间(子空间)给出更加聪明的样本并训练样本。我们讨论多种适应度函数来评估整体效果,并且对我们的方法的效果与对训练数据和特征子空间随机取样的效果进行经验主义的比较。

四、主动学习和贝叶斯优化

1. 论文:为解决最优结束问题,改善最优贝叶斯策略搜索的样本效率(Improving the Sample Efficiency of Bayesian Optimization Policy Search for Optimal Stopping Problems)

作者:Rika Antonova, Joe Runde, Christoph Dann 和 Emma Brunskill

摘要:结合了高斯过程的贝叶斯优化已经在大范围序列决策任务中展示出了有效性,它使用较少的观测就能找到更好的策略。最优结束问题是一系列可以捕捉金融,教育和医疗保健的重要决策问题。虽然这些模拟样本是没有条件独立的,我们发现在一定的假设下——例如在一个有这些样本的全科医生在渐近预测行为的条件下仍然会与有独立条件样本的全科医生的行为趋于一致。我们还认为,这些模拟观测在股票交易模拟中有效地引了导政策搜索和提高采样效率。

2. 论文:Active Learning for Approximation of Expensive Functions with Normal Distributed Output Uncertainty

作者:Joachim van der Herten, Ivo Couckuyt, Dirk Deschrijver 和 Tom Dhaene

摘要:类似黑匣子功能,主动学习致力于通过采集非线性响应区域来提高精度。本文的 FLOLA-Voronoi 方法介绍了先前的确定性反应,并从理论上推导出输出不确定性的影响。该算法自动地把更多的重点放在探索,以提供更多的信息模型上。

3. 论文:有传感成本效益和特征提取的空间主动学习(Spatial Active Learning For Cost-Effective Sensing and Feature Extraction)

作者:Matthew Berger, Lucas Magee, Eric Heim 和 Lee Seversky

导语:在历史上,基于池的主动学习方法被用作减少所需监督数据的手段,来学习准确的推理模型。然而,这样的方法假设在池无监督的情况下,主动学习者选择的是已知的先验。更具体地说,主动学习者必须有访问这些将被用于学习的实例的功能。在许多实际的学习情况下,将会产生获得这些功能的成本。例如,特征提取方法可能有很高的计算成本,即使是简单地观测也需要很高的成本以及最为先进的传感器。因此,已池为基础的主动学习方法,虽然y监督成本有效,但可以被认为是数据效率低下的,因为它需要一个完全描述性的数据实例池。

4. 论文:主动搜索区域感知的稀疏信号(Active Search for Sparse Signals with Region Sensing)

作者:Yifei Ma, Roman Garnett 和 Jeff Schneider

摘要:自动化系统可以在一个很大的空间内搜索稀疏信号,例如,空中机器人可以用来定位威胁,检测气体泄漏,或响应呼救。直观地说,搜索算法可以通过收集汇总大面积的汇总测量来提高效率。然而,现有的大多数搜索方法都忽略了区域观测的可能性(例如,贝叶斯优化和多臂老虎机模型)或作出充分的假设,允许每个测量的传感机制,测量在整个环境中的任何编码信号(例如,压缩感知)。我们提出了一种算法,只使用噪声测量的平均值的矩形区域(包括单点),根据信息增益最大化,主动收集数据以搜索稀疏信号。

5. 论文:搜索改善主动学习的标签(Search Improves Label for Active Learning)

作者:Alina Beygelzimer, Daniel Hsu, John Langford 和 Chicheng Zhang

摘要:我们通过访问两个数据库研究主动学习:标签(即标准)和搜索(不标准)。搜索数据库塑造了一种人们搜索数据库的种子或现有解决方案的反例的情况。在许多情况下,搜索比标签功能更强。我们发现,运用数据库使用运算法则可以改进标签单独提供指数的问题。

6. 论文:众包设置中的动态任务分配(Dynamic Task Allocation for Crowdsourcing Settings)

作者:Angela Zhou, Irineo Cabreros 和 Karan Singh

摘要:我们考虑了众包经费分配最优化的问题,将用户分配到任务中,最大化我们对最终众包答案的信心。这样一个优化工人分配的方法让我们「促进」了任何流行的所有评测算法的功效。我们考虑到了一个相互的众包问题信息解释方法,可引发出一个带有子模块目标函数的随机子集选择问题。我们展现了实验模拟结果,结果显示我们动态任务分配方法在获得更高准确率上面的有效性,这可能需要少数标记,也是对先前一个对问题中用户比例比较敏感的方法的改善。





http://blog.sciencenet.cn/blog-1225851-984186.html

上一篇:[转载]谷歌大神 Jeff Dean 的那些“惊人真相”
下一篇:[转载]他是硅谷最好斗的华人 微软、谷歌、特斯拉都离不开他

3 陆泽橼 王满喜 dulizhi95

该博文允许实名用户评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-14 16:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部