《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:自动句法分析中的伪歧义泥潭】 精选

已有 3037 次阅读 2016-6-7 13:51 |个人分类:旧文翻新|系统分类:科研笔记| parsing, 自动句法分析, 伪歧义

我:

“难得他认可啊。”

歧义句。

有点类似于 、但也不同于“难过” 的歧义:

(1)他认可,难得啊(已然);(2)得他认可,难啊(未然)。

前者可以骄傲,是正面信息;后者是负面的畏难情绪,不自信,或的确客观上难以达到。

parse 的是 (1),如果想要(2),还是循“难过”的先例,去在语用层做休眠唤醒吧。

“难过”(“小河很难过”)见 【立委科普:歧义parsing的休眠唤醒机制再探

:

我以前讲过,在实际语言交流中,人与人之间几乎没有歧义。如果真像nlp一步一个歧义,哪还得了。类似范冰冰奶奶、咬死猎人的狗之类的句子是语言学家消遣自己的。上帝是为人准备的语言,不是为机器的。

白:

nlp大多数歧义是伪歧义。问题是,这些伪歧义,对人来说,是在哪个环节被干掉的。

只要分析器在按照语言学家的思路做,语言学家消遣自己的把戏,就总有一天会消遣到机器的头上来。

雪:

common sense环节?人自身对于整个世界的建模

我:

CFG based parser,哪怕是 lexicalist 的语法 如HPSH,也有很多伪歧义 parses,可是多层的 parsers 就很少受到这个困扰。这个事实显而易见。可见 common sense 不该是 key,因为 多层系统里面 common sense 即便利用,也是零星带入的 不是主力。

我做博士的时候,导师的实验室里面有一个英语的 HPSG parser,parses 输出如此之多,如此地不能辨别真假,以至于最后在使用这个parser做MT实验的时候,我们不得不只选取第一个 parse,等价于随机选择。

层层递进的多层 parsing 虽然会偶然出现漏掉有效parses 的路径(过早删除),但比起其他 parser 的伪歧义成堆,还是境况好得多。此外,漏掉的有效 parses 在开发过程中,可以被重新补足,或被唤醒。

所以,白老师说 NLP大多数歧义是伪歧义,基本是针对单层搜索的 parsing 算法而言,而不是多层 cascaded parser 的真正缺陷。

mei:

可以说是“common sense”吧。人不是机器。

我:

一般来说,语言学的细线条知识 不划归 common sense 范畴。当然,细线条到一定程度,常识也就溜进来了,没有绝对界限。人类交流没有感觉到歧义,有几个原因:

(1)歧义休眠了,正常的场景不被唤醒,因此无感;

(2)有些歧义不影响大面的理解和主旨的交流,说的人也许本来自己就含混,听得人也没有理由去追究细节。保持某种语义模糊是人类交流相当常见的状态,但是一旦形式化,歧义就站在那里了,除非是做系统的人特地去把歧义中性化或模糊化。一个典型的 PP-attachment 的歧义是 for-PP,以前说过,在很多场合,这个 for-PP 做定语还是做状语,根本没啥大差别。

mei:

人要是想多了,说不定也有“歧义“,但人的“short term memory”是有limit的

我:

(3) 当然还有一部分所谓歧义是系统 “人造”的,本来无歧义,系统自扰之。譬如,在 HPSG 的数据结构 feature structure 的设计中,经常会出现这种歧义。由于过分强调 feature structure 的层次性、逻辑性和合一性,以至于当这个 structure 投入使用的时候,带来了大量的对于人没有区别意义,但对于结构具有区别的所谓歧义。这是与具体的系统formalism 的设计有关,是 system internal 的,与其他 formalism 无关,与人的理解无关,是模型化形式化过程中的产物。unification 是双刃剑,推向极端,系统就失之太过精巧,没有容错性。

刚才例行散步时仔细想了想了这个伪歧义的问题。为什么这么多 parsers,包括传统的 CFG-based 规则系统和统计训练出来的 parsers,陷入伪歧义的泥潭?

白:

没用盘外招呗

我:

得了 得了。我一肚子话还没说呢。

白老师,I 服了 U!

白:

羊头+盘外招=狗肉

我:

白老师讽刺我是卖狗肉的

mei:

Spoken 和 written 应该有很多不同吧?@wei 

我:

很多不同是对那些从 PennTree 训练出来的系统。对我们的系统,没有什么不同。spoken  的语言不太规范,transcribe 成 text 我一样 parse,质量会有降低,但那是与 spoken text 的随意性成比例的,绝对不会是直线下降。反过来,我以 degraded text 做我的数据制导,出来的系统一样对付正规文体。parse 新闻不会比专门从新闻训练出来的系统差。这是语言学家做系统的好处之一吧,我们是人,不是机器,不会被数据牵着鼻子亦步亦趋。

白:

光分层,不可能把伪歧义去的那么好。这里面太多只可意会 不可言传。有剪必有捡

我:

关于伪歧义,这么说吧:伪歧义太多是枝枝蔓蔓没有及时修剪的必然结果。理论上讲,修枝剪叶是危险的,实践中却不尽然。自然语言中的现象中有很多是相互依赖的,但也有很多现象是相互独立的。如果你设计的系统是以相互依赖作为基本的 assumption,祝贺你,你就跳进泥潭吧。跳吧,跳吧,不要往两边看。

如果你相信语言现象的 dependency 是有限的,可以调控的,即便剪错了也不是世界末日,你就可以在数据制导的开发环境里,逐渐把系统调适得恰到好处:该休眠的休眠,该保留的保留,该杀头的立即枪毙。你就不会为伪歧义所困扰。

白:

一个硬币的两面。靠剪对付标配,靠捡对付长尾。

两手都要硬

我:

是的,可是怎么硬呢?

硬必须要有语言学的sense,必须知道根据不同情况做不同的对待。缺乏语言学的人 把各种路径放在一个锅里炒,无论你有多大的数据,你也还是陷入泥潭。

雷:

@wei 不是秋后问斩,是斩立决

我:

白老师字字珠玑: 靠剪对付标配,靠捡对付长尾。

雷:

@wei 其实,即使没有歧义,语言理解也是如若有歧义,理解有多个

白:

把人际沟通中的各种暗示、言外之意都算进来,歧义不得了,但是核心的精神,剪与捡,是不变的。

雷:

每个人接受的模式决定了理解的样式

白:

比如站在严格逻辑的角度,从“该来的没来”,本不该推出“来的都是不该来的”;从“不该走的走了”,也不应推出“没走的是该走的”。但是人就是要听话听声。

我:

@雷,一码一码吧。语义落地到人或产品,那是 parsing 的后过程。

雷:

句法是语言学家的

我:

@白老师 盘外招 只可意会不可言传的 tricks 这些在学习系统中怎么去 model 呢?我怀疑学习算法不敌领域专家(对于 parsing 就是语言学家),根据的就是这个。我作为专家如果在迷宫里千辛万苦绕出来了,学习怎么恰好也能绕出来?

白:

@wei 同样的话,围棋高手们也问过。

我:

说的也是,围棋手也这么问过。

不过,白老师其实只说了半句话。

白:

另半句,取决于学习模型长什么样。

我:

这个模型的定义至少不该排除领域专家的参与 无论以什么方式 除非设计者是个全才。

白:

标配是必然的,也不排除有个居高临下的模型,俯瞰N个领域,语言只是其中之一,但是人家从其他领域登顶了。就像控制论,把人、动物、机器里的反馈控制一网打尽了。生理学家、动物学家都买账的。尽管创始人是从机器出发登顶的


【相关】

【新智元笔记:李白对话录 - RNN 与语言学算法】


【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】


《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 - 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》





【科普小品:NLP 的锤子和斧头】


【置顶:立委科学网博客NLP博文一览(定期更新版)】  




http://blog.sciencenet.cn/blog-362400-982996.html

上一篇:【deep parsing (70/n):离合词与定语从句的纠缠】
下一篇:【立委科普:NLP应用的平台之叹】

3 黄永义 李楠 zjzhaokeqin

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-30 10:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部