大工至善|大学至真分享 http://blog.sciencenet.cn/u/lcj2212916

博文

[转载]【计算机科学】【2012】基于神经网络的统计语言模型

已有 1633 次阅读 2019-10-23 14:09 |系统分类:科研笔记|文章来源:转载


本文为捷克布尔诺理工大学(作者:DISERTACN ˇ ′I PRACE ′)的博士论文,共133页。

 

统计语言模型是许多成功应用程序的关键部分,例如自动语音识别和统计机器翻译(如著名的谷歌翻译)。估计这些模型的传统技术是基于Ngram计数的。尽管已知N-gram模型的弱点以及许多领域研究团体的巨大努力(语音识别、机器翻译、神经科学、人工智能、自然语言处理、数据压缩、心理学等),N-gram模型基本上仍然是最先进的。本文的目的是提出基于人工神经网络的语言模型的各种体系结构。尽管这些模型的计算成本比N-gram模型高,但使用本文所提供的技术,可以有效地将它们应用到最先进的系统中。相对于最先进的N-gram模型,语音识别系统的误码率降低了20%。所提出的基于递归神经网络的模型在众所周知的Penn Treebank设置上获得了最佳的发布性能。

 

Statistical language models are crucial part of many successfulapplications, such as automatic speech recognition and statistical machinetranslation (for example well-known Google Translate). Traditional techniquesfor estimating these models are based on Ngramcounts. Despite known weaknesses of N-gramsand huge efforts of research communities across many fields (speechrecognition, machine translation, neuroscience, artificial intelligence,natural language processing, data compression, psychology etc.), N-gramsremained basically the state-of-the-art. The goal of this thesis is to presentvarious architectures of language models that are based on artificial neuralnetworks. Although these models are computationally more expensive than N-grammodels, with the presented techniques it is possible to apply them tostate-of-the-art systems efficiently. Achieved reductions of word error rate ofspeech recognition systems are up to 20%, against state-of-the-art N-grammodel. The presented recurrent neural network based model achieves the bestpublished performance on well-known Penn Treebank setup.

 

引言

统计语言模型回顾

基于神经网络的语言模型

语言建模技术的评估与组合

《华尔街日报》实验

大规模神经网络语言模型的训练策略

其它实验

论自然语言的智能模型

结论与未来工作展望



更多精彩文章请关注公众号:qrcode_for_gh_60b944f6c215_258.jpg



https://blog.sciencenet.cn/blog-69686-1203129.html

上一篇:[转载]【雷达与对抗】【2012.08】基于激光雷达的多目标动态跟踪系统建模
下一篇:[转载]【电信学】【2016】物联网智能家居
收藏 IP: 112.31.16.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 07:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部