《新智元笔记:与汉语离合词有关的结构关系》
已有 5949 次阅读
2016-2-13 15:45
|个人分类:立委科普|系统分类:科研笔记|
parsing, 中文, 语义, 语用, 分离词
我: 离合词和倒装反问句搅合在一起的句例:
今天下班路上还在琢磨,有时候汉语的小词就完全改变了句子的意义:看下面的 minimal pair:他什么书不读,倒装反问,是说的他无书不读,他读各种书,他博学;而他什么书“都”不读,同样的结构,只是加进一个小词“都”(或“也”)就全反了,说的是他一本书也不读,不读任何书,不学无术。你说汉语机巧不?不过,只要 parsing 靠谱周全,不拉下小词,求解这些语义就不难。
白: 读所有的书,“所有”指向“书”;打所有的仗,“所有”指向“打仗”。“书卖了”兼述书的下落,“书买了”只是在“to do list”里勾销了“买书”一项而已。
我: 这个无所谓吧,只要提供的接口有一个约定就行了。当一个分离的离合词合并的时候,原宾语节点被抹去,融汇进合成词了。原有的宾语的定语,只能跟着过门了,算是陪嫁。为了区别这个动词的原状语和带过来的定语,一个是 Adv(状语),一个是 Mod(定语),不改变各自关系的原名称。Mod 本身意味着句法关系是指向合成词内部的名词性语素的,而不是指向这个合成词的。就是一个约定,一种表达法的约定的protocol,至于语义在用的时候怎么落地,那须在此约定的基础上做语用层面的重新解释和安置而已。至于“读书”与“打仗”的区别,没必要在句法层面表达。因为这是词驱动的语义细微差别,那就在词驱动的时候做不同的解释或解读好了。“打仗”被汉语句法生生分开了,其实语义上是一个概念。“读书”不同,“读书”语义上是一个组合的概念。
白: 不是的,“下的什么臭棋”的“臭”,形容的不是“棋(子)”而是“下棋(水平)”。这个定语指向“棋”还是“下棋”,应该做出区分。
我: 当然可以或应该做出区分,关键是这种区分是词驱动的。句法已经为这种区分做好了支持。不过是一个词驱动的 remapping 而已,爱怎么区分就可以怎么区分,譬如:
下棋:Mod --> Adv(下棋)
读书: Mod --> Mod (书)
这就区分了。对于下棋,其带过来的 Mod remap 到 Adv,去与整个动词连接。所有这些表达,都是内部协调,语义语用的接口,大多是为了人好看。对于机器,只要机制提供了,爱怎么转接怎么转接。总之,难点不在这里。难点还是在句法。句法是个纲,纲举目张。后去就是各种 remapping。很多时候不过是人的一种喜好。譬如在一种语用场合,IE 定义的时候把 hire 的“施事”叫做 “雇主”,“受事”叫做“雇员”。不过是换一个名字而已,可是,不换这个名字,知识图谱的使用者就觉得不舒服。好,那就给你 remapping,句法到IE语用,不就是 remapping 的游戏吗,就是一个玩儿:
hire: S --> 雇主
hire: O --> 雇员
Bingo! IE(Information Extraction)在这条规则里面完成了。纯粹就是玩儿,哄人高兴。苦活累活脏话都在parser里面,到了语用,就聚焦了,简化了。以前说parser是IE和语义IR(Information Retrieval) 应用(下一代搜索引擎)的核武器,很多人将信将疑,以为立某自吹自擂,故意要张扬自己擅长的parser,可天地良心,parser做好了,IE就是薄薄的一层remapping,这是相当显然的事实。只不过IE出来的还是碎片,这些碎片需要融合(Information Fusion)才能真正支持大数据的应用。后一步属于 mining 的层面,的确还有工作。很多还是没怎么深入研究过的地带。前一步抽取基本上就是一层皮。
【相关】
【新智元笔记:汉语分离词的自动分析】
【新智元笔记:搭配面面观】
【新智元笔记:搭配二论】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-955928.html
上一篇:
《新智元笔记:汉语parsing的合成词痛点》下一篇:
《新智元笔记:汉语使动结构与定中结构的纠缠》