dudong的个人博客分享 http://blog.sciencenet.cn/u/dudong

博文

一种新的语言模型:a neural probabilistic language model

已有 13295 次阅读 2012-12-28 20:34 |系统分类:科研笔记|关键词:模型,语言| 语言, 模型

做的方向是依存句法分析(dependency parsing)

捋捋最近读的论文:
首先是在读机器学习(具体点说,是深度学习)相关的论文,读到几篇关于神经概率语言模型(neural probabilistic language model)的文章; 
语言模型与依存句法分析(dependency parsing)有很紧密的关系,希望可以把这两者结合起来!

下面是一个关于神经概率语言模型的reading list:
【1】[2003 JMLR]a neural probabilistic language model
这是神经概率语言模型的第一篇论文;

【2】[2005 AISTATS]hierarchical probabilistic neural network language model
在【1】的基础上将词汇分层得到的,优化了算法的时间复杂度;

【3】[2007 ICML]three new graphical models for statistical language modeling
作者是Geoffrey Hinton;就是他最早提出了深度学习,深度学习现在在机器学习领域特别火!从2006年开始,它标志着神经网络在机器学习界的复苏!本篇论文是作者将深度学习的部分思想应用在语言模型上的结果。

【4】[2009 NIPS]a scalable hierarchical distributed language model
作者仍是Geoffrey Hinton;在【3】的基础上将词汇分层得到,与【2】在【1】的基础上的改进工作很类似,不过【2】在【1】上的改进工作主要集中在使用了WordNet作为先验知识;而【4】在【3】上的改进工作是使用了自动的方法。

下面找出来其中最核心的一篇详细分析一下:【1】[2003 JMLR]a neural probabilistic language model

1.背景知识:
1.1 语言模型
语言模型就是根据一定的训练集按照某个算法训练出来的模型,这个模型可以(1)计算出来某个句子在该模型下出现的概率;(2)在前面若干个词给定的情况下判断下一个词出现的概率;
下边是一个例子:
P("I love you") = 0.003, 但是P("I you love")=0.00000003;说明即使在统计的意义下,符合语法规定的句子出现的概率要远远大于不符合语法规定的句子出现的概率;
P("you" | "I love") = 0.1,表示在前两个词是"I love"的前提下,下一个词是"you"的可能性是0.1
P("reading" | "I love") = 0.001,表示在前两个词是"I love"的前提下,下一个词是"reading"的可能性是0.001
这个概率表示语言模型体现了统计学的特征,而不单纯是语法学的特征!

1.2 N-gram语言模型
传统的语言模型是N-gram语言模型,即一个很重要的假设:
每一个词出现的概率仅与它前边的N个词有关。
用公示表示如下:

N-gram在实际中应用很广泛,但是它有很明显的缺点:

1)参数空间不光滑,经常需要一些平滑算法来弥补

2)对于词典中没出现的词没有办法处理


3.神经语言模型(neural language model)






http://blog.sciencenet.cn/blog-795431-647334.html

上一篇:MAP inference--[2005 IEEE]MAP estimation via agreement *****
下一篇:依存句法的想法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-18 12:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部