博文

帝国理工学院：自然语言处理中大数据的智能收集与分析

已有 2144 次阅读 2019-7-1 16:58 |个人分类:好文推荐|系统分类:论文交流

面对海量信息，如何快速高效准确地对数据进行标记、使之为科研所用？正所谓"众人拾柴火焰高"，帝国理工学院Björn Schuller教授团队提出一种基于"众包"的在线游戏化数据收集、标注与分析平台 iHEARu-PLAY 及与之整合的基于网页的新型语音分类工具及声音分析应用 VoiLA ，可很好地应用于语言及语音处理，能够在保证质量的前提下，以更低的成本，快速高效地收集大量数据标签，以游戏化的方式吸引广大参与者为科学研究贡献有效数据。未来，本研究还将融入迁移学习的概念，旨在将现有任务中的知识最大化迁移至新任务中，并获取与新任务相关的新知识。

全文下载：

SpringerLink:

https://link.springer.com/article/10.1007/s11633-019-1180-0

IJAC官网：

http://www.ijac.net/en/article/doi/10.1007/s11633-019-1180-0

相关阅读：

【综述专栏】实现产品研发“众包”的框架、关键技术及挑战

【中文导读】

当前，创新型人工智能应用及深度学习技术的发展势如破竹，这随之催生出对大规模标记训练数据(large-scale labelled training data)的巨大需求，用以充分训练新兴系统(newly developed systems)及其底层机器学习模型(underlying machine learning models)。

这一需求在音频分类(audio classification)研究中尤为突出。为了更好地优化模型，就要从大量语音信息中收集训练数据(training data)。借助当前技术，可以通过互联网，充分利用内嵌于手提电脑、平板电脑、智能手机等终端设备中的麦克风来捕捉新数据。这项技术进步可以在真实环境中从海量说话者处收集大量语音数据，声音可以出自各类麦克风、设备，带有不同的背景噪声、回声等等，说话者也可能来自不同地域、说着不同语言、带有不同口音、来自不同年龄层、具有不同文化背景。

在真实环境中收集的音频样本包含着各种各样的环境噪音，如重大场合中的人群噪音、交通噪音及其他城市噪音，这使得它们能很好适用于噪声消除(noise-cancellation)或声源分离(source-separation)等研究领域，如完成现代语音识别任务(modern speech recognition tasks)。

然而，如此大规模的数据却是松散无结构的(unstructured)，且缺乏可信的标记，但对数据进行高质量的标记不仅费时费力，而且成本很高。针对这一难题，一项新技术---"众包"(crowdsourcing)找到了解决办法。

来自文章

以前，数据标记都是由专业人员在可控的实验环境下完成，现如今，不少科研项目开始转变思路，采用"众包"的方式，将标记任务发布在互联网上，而后雇佣一些非特定且大多未经过专业训练的网民个体担任标记员，完成标记任务。因此，"众包"可应用于很多不同的领域当中，能够在任何时候很快地召集到来自全球各地的、具有不同背景、知识水平和技能的个体来完成不同任务。

"众包"已经成为一种新型协作方式，可很好地应用于语言及语音处理，能够在保证质量的前提下，以更低的成本，快速高效地收集大量标签(labels)。

本研究提出一种基于众包的在线游戏化数据收集、标注与分析平台iHEARu-PLAY及与之整合的基于网页的新型语音分类工具及声音分析应用VoiLA，该应用旨在鼓励游戏者在自愿的基础上，以有效的方式提供大规模标记语音数据，即在玩游戏的同时也为科学研究贡献数据。

【研究结论】

本研究主要介绍了一款基于浏览器的众包平台iHEARu-PLAY及其基于网页的语音分类工具VoiLA。借助iHEARu-PLAY对语音进行标注(speech annotation)，VoiLA可以得到需要的训练数据。

来自文章

具体而言，对于帮助完成数据标记的游戏者及其他任何人，VoiLA都会给予一定的鼓励以促使他们使用和评价训练系统，鼓励措施包括分析游戏者的个人声音。游戏者可以在浏览器上直接记录及上传他们的声音，上传的声音数据会通过一个分类管道(classification pipeline)，经由一组预训练模型(pre-trained models)进行分析，这组预训练模型可分析不同状态下、具有不同特征(如不同性别、24种不同情绪等)的说话者声音。最后的分析结果会以视觉化的方式通过浏览器给出反馈，这就让游戏者可以从一个独特的角度来认识自己的声音。

来自文章

通过对该平台及方法进行广泛的测试和评价，得出的结论是：该系统的可用性近乎完美，游戏者也能很好地接受和使用记录声音的任务系统。除此之外，通过游戏者的反馈意见可看出，未来改进的方向主要在于提升情感分类的准确性。

来自文章

【未来方向】

未来，本研究还将融入迁移学习(transfer learning)的概念，旨在将现有任务中的知识最大化迁移至新任务中，并获取与新任务相关的新知识。这种自适应学习策略(adaptive learning strategy)同样可以用于不断优化VoiLA模型。此外，本研究还会借助VoiLA中已经收集和标记的游戏者数据，重新对分类器(classifier)展开训练，从而进一步改进分类器。

未来还有可能实现让游戏者训练自己的分类器，这也将反过来提升整个系统的性能。从游戏者的角度来看，记录及标记任务是以一种游戏化的方式展开，直观上看其实是游戏者饲养了一只自己的”电子宠物”(tamagotchi)(即分类器)，只有每天精心呵护，完成相应的标记和记录任务，”电子宠物”才能长大。

同时，在分析游戏者声音上，未来将不止于借助机器学习实现，还将由人工标记员(human annotators)完成。iHEARu-PLAY作为一个收集这些人工标签的理想平台，会更紧密地与VoiLA融合。除此之外，基于当前的评价调查结果，本研究正计划将游戏者的反馈也加入到系统当中。

本研究的长期目标是开发一种分类器，能够在游戏者说话时，实时反馈结果。因此，VoiLA还发挥了科普的作用，即向人们普及声音分析背后的科学、展现iHEARu-PLAY的完整标注过程。

【全文信息】

Large-scale Data Collection and Analysis via a Gamified Intelligent Crowdsourcing Platform

大数据收集及分析工具：新型游戏化智能众包平台

Simone Hantke, Tobias Olenyi, Christoph Hausner, Tobias Appel, Björn Schuller.

全文下载：

SpringerLink:

https://link.springer.com/article/10.1007/s11633-019-1180-0

IJAC官网：

http://www.ijac.net/en/article/doi/10.1007/s11633-019-1180-0

英文摘要:

In this contribution, we present iHEARu-PLAY, an online, multi-player platform for crowdsourced database collection and labelling, including the voice analysis application (VoiLA), a free web-based speech classification tool designed to educate iHEARu-PLAY users about state-of-the-art speech analysis paradigms. Via this associated speech analysis web interface, in addition, VoiLA encourages users to take an active role in improving the service by providing labelled speech data. The platform allows users to record and upload voice samples directly from their browser, which are then analysed in a state-of-the-art classification pipeline. A set of pre-trained models targeting a range of speaker states and traits such as gender, valence, arousal, dominance, and 24 different discrete emotions is employed. The analysis results are visualised in a way that they are easily interpretable by laymen, giving users unique insights into how their voice sounds. We assess the effectiveness of iHEARu-PLAY and its integrated VoiLA feature via a series of user evaluations which indicate that it is fun and easy to use, and that it provides accurate and informative results.

关键词:

Human computation, speech analysis, crowdsourcing, gamified data collection, survey.

注：本文系IJAC小编翻译，首发于IJAC微信公众号（IJAC），因小编学识有限，若翻译内容有失偏颇，欢迎后台留言指正！

RECOMMEND