《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【Parsing 的命根子是 subcat,逻辑的和语言的】

已有 2647 次阅读 2016-12-21 08:29 |个人分类:立委科普|系统分类:科研笔记| parsing, 逻辑, 语义, 句法, subcat

细说起来有两类句型分类:一类是逻辑上的,一类是语言上的。二者相互呼应,前者是内容(output 目标,也隐含了语义条件),后者是形式(input 的句法条件)。

逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个施事 argument 来表达谁哭了笑了,所谓不及物谓词。

“爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),表达 谁 爱/恨 谁了。
“给/赠与” 这样的谓词,需要三个 arguments,表达 谁 把 什么 给 谁 了。
“认为/声明” 这样的谓词,需要两个 arguments,其中一个是实体,表达谁的认为/声明,第二个 argument 要求一个 statement (嵌套的谓词结构),表达认为/声明的内容。

这种逻辑上的谓词子类的区分是语言通用的,因为它的根基是概念及其意义的完整性(谓词加上arguments就是所谓的argument structure,表达的是一个 statement)。

逻辑工作方面的集大成者就是董老师的 HowNet。

以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns。到了语言这个层次,辞典中一个动词的动词句型子类可以标示以下的subcategorization 的信息(及物不及物只是其简化标识,vt/vi, 牛津词典曾经用20多个子类标注每个词条的subcat,v1,v2, ..v21,...):

1. 能带几个 arguments
2. 这些 arguments 要求处于什么形态(主格,宾格,要什么介词,处于什么位置)

词典中这种子类信息的标注直接决定了一个parser的质量,是非常关键的预示信息。对于学习英语,熟悉这些句型信息也非常有用。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类略有不同,印象是分了30多子类),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。 一个词经常分成n个义项,每个义项下的subcat分类标注往往不同,回去翻翻词典就看到了。

这后一步的工作,英语和中文我一直在做,n年了。董老师的中文系统目前也在做。只做不说的白老师或其团队也一定在做。subcat 是 quality parsing 的命根子。大家具体做法可能不同,但大而言之,还是差不多的。就是我们以前说的句法词典化。


【相关】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录




https://blog.sciencenet.cn/blog-362400-1022127.html

上一篇:【从V个P到抓取邮电地址看 clear patterns 如何抵御 sparse data
下一篇:【研发心得:sentiment 的诡异】
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 07:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部