《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

泥沙龙笔记:句法语义,粗细不同,POS 靠边

已有 2771 次阅读 2015-10-5 14:24 |个人分类:立委科普|系统分类:科普集锦| parsing, POS, 汉语分析

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边


泥沙龙笔记:汉语就是一种 “裸奔” 的语言。有时连词序都顾不上了,哪个概念先出现在脑子就蹦出哪个,顾不上调整词序再说出来,全民族的“心直口快”综合征。这就是国人,这就是汉语。譬如,“鸭子爱吃”; “鸡肉猪肉不要”。宾语提前,连个介词也懒得用。经济啊,汉语。


白: 这个说明语序有冗余信息,谓词有坑,不怕宾语提前。歧义呗。


还不是要靠常识。两个坑啊,没有语义怎么行?语义呢,只能是隐性的形式,是词的分类,及其常识语义关系。


白: “鸡不吃了”。 隐形标记不是常识。


隐性标记是常识可以代入句法消歧的基础条件:“鸡我吃了,怎么着”?


白: 隐形标记可以对付90%的场景,剩下的才是真歧义,需要用真常识应对。


我鸡吃了,汤也喝了。


白: 这个没歧义,除非童话。两个坑,一个两可,一个唯一。唯一优先。

跨标点符号的,可以视同缩进


NP1+NP2+Vt

这个是真常识么?


白: 不是,还是隐形标记。


白老师把消歧的步骤列出来?鸡我吃了 vs 我鸡吃了。


“吃了我鸡”,“吃了鸡我”,都可以找到合适这么说的场景。可见语序在汉语自由到了可怕的地步。本来缺乏形态的语言是依赖语序的,可是汉语竟然如此任性!一副从心所欲不逾矩的东方汉子的气势,和尚打伞无法无天。


白: “吃了我鸡”是另外的意思,鸡是属于我的那种。


可以算,不过一般人还是不省去“的” 字。略显得有点拗口。


白: “吃了鸡我”少许有点不规范,但是从坑的角度没问题。因为动宾结构本来就是宾语优先的。


总之,啥语序都可以,没学过汉语的人是很难想象的,这与理论预期不符合。你衣橱里啥都没有,最后居然连语序这个比基尼都不要了。汉语牛啊。


白: 吃了我鸡,住了我房,还想赖账。这个是可以的。

其实汉语搞成多级的词袋模型是最贴切的了。


排除语序的因素?

我们这是为了 argue 而举例。统计上看,语序还是一个有价值的形式。


白: 语序因素都反映在本级NGRAM里。


那当然可以,ngram 是次序的.


白: 逮到填满坑的机会就往上一级抛。


我还是不懂你怎么区别 "我鸡吃了" 和 "鸡我吃了" 如果不带常识语义的话.

至少 代词常做施事这样的 heuristic 需要代入,才可吧。


白: 吃的两个坑,一个有生命,一个食物。我做食物,概率低呀。

邬: But I think we might use semantic at syntactical level


说的就是在句法里面暗度陈仓语义常识的.


白: 不是常识,食物是隐形标记,是语言学知识

邬: As in c++ template of template use << and >>.

白: 可以认为就是subcat


这个的确是常识:吃的两个坑,一个有生命,一个食物。

生命 - 吃 - 食物

如果要把这个常识分解成 binary 也可以:

吃 - 食物

生命 - 吃

前者比后者可以有不同的优先级,代入语义后,消歧成一个。


白: 主题句是规范形式,可以纳入常规句法结构。

鸡不吃了,鸡我不吃了,都是。

黄: 这辆车吃油。

白: 鸡我不吃了还有一个同位结构,小概率歧义,是童话场景下专用。


二者的关系,也可以动态调用,常识 encode 在词典里面,让句法去调用。


白: 车吃油,是隐喻。隐喻在坑不搭配的时候才激活。


这就是我们当年引以为豪的 Expert  Lexicon,非常合理,共性的归共性,个性的扔到词典垃圾箱。


白: 个性优先于共性


隐喻是破“格”。这个就是 Wilks 说的优选语义(prereference semantics)。任何常识语义都不是绝对的,不过是优选而已。


白: 回到统计,只不过分了个层。


怎么回到统计?


邬: 层是人为分的

白: 先让参与统计的伙计们相互够得着,然后就是统计。


这个在理。相互够得着不需要语义,是纯粹的句法操作。统计可以从大数据中提取常识,然后在被句法在线调用。大数据提取常识当然是线下的知识挖掘。


白: 也可以不需要句法,纯粹的语义操作。句法让统计顺手牵羊。太裸奔的语言,直接语义吧。


不需要句法纯粹语义理论上可以,实践上劳民伤财。因为句法是个轻武器,不用白不用。语义是个巨大的烂泥坑。


白: 需要的句法是不过脑子那种。


绕过句法做语义,舍近而求远。这个纯语义 Wilks 做过实验,只有理论的意义,没有实践的指导价值。


白: 用句法,前提是不那么裸奔,或者非裸奔的部分。这种当然不排除用句法。


当然难度大了,因为显性的形式没有,简单的句法不好用了。但是,统计上还是可以看到句法分布的痕迹。


白: 把几乎所有排列组合都写成规则,也是一说,不过麻烦不会比语义少。


其实,说到这里,句法语义可以统一来考量,不过就是规则的粗细而已。


邬: right


用 POS 这种隐性形式来做句法是经典的句法路子,是粗线条的句法。用 食物,生命,吃 等语义分类来做,就是细规则。粗的可以兜底,细的放在上面。都是词典给出的分类。操作是一样的。


白: POS不是真正的同分布类。

细的优先,不就是语义优先么。


POS 是 top,下面一步步走向语义的 taxonomy。WordNet 是这样 assume 的。当然,严格的语义系统不应该用 句法的POS 而应该用 逻辑的POS 做top。譬如 manage 和 management 虽然是不同的句法 POS,但是却是相同的逻辑POS(动作类)。


白: ”这本书的出版“ 类似。

POS是语言教学向语言处理进化过程中留下的阑尾。


这个我也批评过,汉语的 POS 不是 parsing 的必要过程,但是很多人认为是,这是一个迷思 misconception。中文处理的迷思之二:词类标注是句法分析的前提

词类标注(Part-of-speech Tagging: POS)是汉语句法分析的前提么?没有这回事。

没有词类,怎么可能施行句法分析?

谁说没有词类?词典里给出的任何类别标注都是一种“词类”。

根据 keep ambiguity untouched 的经验法则,遵循 adaptive development 的基本原则,跳过 POS 的环节,让句法分析直接建立在词典信息的基础之上,是解决矛盾的一个有效方法。

矛盾就是:词无定类,入句而后定。

ngram 搞不定 POS,那还不如不搞它。

这个迷思糊弄了多少汉语NLP人啊,绑住了我们的手脚。

山重水复疑无路,跳过POS就是杏花村。就这么简单!

认识上的一个小跳跃,实践中的一个大进步。

就是这么一个诀窍, untold secret for long:具体来说就是,只利用词典里面的静态类别信息来做分析,无须倚赖专有的POS模块先行消歧。



【相关博文】

泥沙龙笔记:汉语就是一种 “裸奔” 的语言 2015-10-05

【置顶:立委科学网博客NLP博文一览(定期更新版)】





http://blog.sciencenet.cn/blog-362400-925383.html

上一篇:泥沙龙笔记:汉语就是一种 “裸奔” 的语言
下一篇:买车的选择:前驱or后驱?

2 武夷山 姬扬

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-18 08:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部