|
统计语言模型(Statistical Language Model)广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。目前主要采用的是n元文法(n-gram)语言模型,这种模型构建简单、直接,但当训练数据不充足时,无法估计出鲁棒的模型参数,模型的性能急剧恶化。数据增强是指利用一定的方法扩充训练数据,可以有效缓解数据稀疏问题。
本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布。语言模型的数据增强问题实质上是离散序列的生成问题。当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型。为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化。此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛(Monte Carlo, MC)搜索算法对生成序列的中间状态进行评价。最后,在两个中文语音识别数据库上将本方法与传统数据增强算法进行了详细的对比试验。
图 1判别模型训练过程
图 2生成模型训练过程
引用格式:张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891-900.
链接:http://html.rhhz.net/ZDHXBZWB/html/2018-5-891.htm
PDF:http://www.aas.net.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=19280
作者简介:
张一珂 中国科学院声学研究所博士研究生. 2014年获西北工业大学学士学位. 主要研究方向为自动语音识别, 自然语言处理.
E-mail: zhangyike@hccl.ioa.ac.cn
张鹏远 中国科学院语言声学与内容理解重点实验室研究员. 2007年获中国科学院声学研究所博士学位. 主要研究方向为自动语音识别. 本文通信作者.
E-mail: zhangpengyuan@hccl.ioa.ac.cn
颜永红 中国科学院语言声学与内容理解重点实验室研究员. 1990年获清华大学学士学位, 1995年获俄勒冈科学理工研究学院博士学位. 主要研究方向为语音信号处理, 语音识别, 说话人/语种识别, 人机交互.
E-mail: yanyonghong@hccl.ioa.ac.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-20 08:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社