|||
泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边
泥沙龙笔记:汉语就是一种 “裸奔” 的语言。有时连词序都顾不上了,哪个概念先出现在脑子就蹦出哪个,顾不上调整词序再说出来,全民族的“心直口快”综合征。这就是国人,这就是汉语。譬如,“鸭子爱吃”; “鸡肉猪肉不要”。宾语提前,连个介词也懒得用。经济啊,汉语。
白: 这个说明语序有冗余信息,谓词有坑,不怕宾语提前。歧义呗。
还不是要靠常识。两个坑啊,没有语义怎么行?语义呢,只能是隐性的形式,是词的分类,及其常识语义关系。
白: “鸡不吃了”。 隐形标记不是常识。
隐性标记是常识可以代入句法消歧的基础条件:“鸡我吃了,怎么着”?
白: 隐形标记可以对付90%的场景,剩下的才是真歧义,需要用真常识应对。
我鸡吃了,汤也喝了。
白: 这个没歧义,除非童话。两个坑,一个两可,一个唯一。唯一优先。
跨标点符号的,可以视同缩进
NP1+NP2+Vt
这个是真常识么?
白: 不是,还是隐形标记。
白老师把消歧的步骤列出来?鸡我吃了 vs 我鸡吃了。
“吃了我鸡”,“吃了鸡我”,都可以找到合适这么说的场景。可见语序在汉语自由到了可怕的地步。本来缺乏形态的语言是依赖语序的,可是汉语竟然如此任性!一副从心所欲不逾矩的东方汉子的气势,和尚打伞无法无天。
白: “吃了我鸡”是另外的意思,鸡是属于我的那种。
可以算,不过一般人还是不省去“的” 字。略显得有点拗口。
白: “吃了鸡我”少许有点不规范,但是从坑的角度没问题。因为动宾结构本来就是宾语优先的。
总之,啥语序都可以,没学过汉语的人是很难想象的,这与理论预期不符合。你衣橱里啥都没有,最后居然连语序这个比基尼都不要了。汉语牛啊。
白: 吃了我鸡,住了我房,还想赖账。这个是可以的。
其实汉语搞成多级的词袋模型是最贴切的了。
排除语序的因素?
我们这是为了 argue 而举例。统计上看,语序还是一个有价值的形式。
白: 语序因素都反映在本级NGRAM里。
那当然可以,ngram 是次序的.
白: 逮到填满坑的机会就往上一级抛。
我还是不懂你怎么区别 "我鸡吃了" 和 "鸡我吃了" 如果不带常识语义的话.
至少 代词常做施事这样的 heuristic 需要代入,才可吧。
白: 吃的两个坑,一个有生命,一个食物。我做食物,概率低呀。
邬: But I think we might use semantic at syntactical level
说的就是在句法里面暗度陈仓语义常识的.
白: 不是常识,食物是隐形标记,是语言学知识
邬: As in c++ template of template use << and >>.
白: 可以认为就是subcat
这个的确是常识:吃的两个坑,一个有生命,一个食物。
生命 - 吃 - 食物
如果要把这个常识分解成 binary 也可以:
吃 - 食物
生命 - 吃
前者比后者可以有不同的优先级,代入语义后,消歧成一个。
白: 主题句是规范形式,可以纳入常规句法结构。
鸡不吃了,鸡我不吃了,都是。
黄: 这辆车吃油。
白: 鸡我不吃了还有一个同位结构,小概率歧义,是童话场景下专用。
二者的关系,也可以动态调用,常识 encode 在词典里面,让句法去调用。
白: 车吃油,是隐喻。隐喻在坑不搭配的时候才激活。
这就是我们当年引以为豪的 Expert Lexicon,非常合理,共性的归共性,个性的扔到词典垃圾箱。
白: 个性优先于共性
隐喻是破“格”。这个就是 Wilks 说的优选语义(prereference semantics)。任何常识语义都不是绝对的,不过是优选而已。
白: 回到统计,只不过分了个层。
怎么回到统计?
邬: 层是人为分的
白: 先让参与统计的伙计们相互够得着,然后就是统计。
这个在理。相互够得着不需要语义,是纯粹的句法操作。统计可以从大数据中提取常识,然后在被句法在线调用。大数据提取常识当然是线下的知识挖掘。
白: 也可以不需要句法,纯粹的语义操作。句法让统计顺手牵羊。太裸奔的语言,直接语义吧。
不需要句法纯粹语义理论上可以,实践上劳民伤财。因为句法是个轻武器,不用白不用。语义是个巨大的烂泥坑。
白: 需要的句法是不过脑子那种。
绕过句法做语义,舍近而求远。这个纯语义 Wilks 做过实验,只有理论的意义,没有实践的指导价值。
白: 用句法,前提是不那么裸奔,或者非裸奔的部分。这种当然不排除用句法。
当然难度大了,因为显性的形式没有,简单的句法不好用了。但是,统计上还是可以看到句法分布的痕迹。
白: 把几乎所有排列组合都写成规则,也是一说,不过麻烦不会比语义少。
其实,说到这里,句法语义可以统一来考量,不过就是规则的粗细而已。
邬: right
用 POS 这种隐性形式来做句法是经典的句法路子,是粗线条的句法。用 食物,生命,吃 等语义分类来做,就是细规则。粗的可以兜底,细的放在上面。都是词典给出的分类。操作是一样的。
白: POS不是真正的同分布类。
细的优先,不就是语义优先么。
POS 是 top,下面一步步走向语义的 taxonomy。WordNet 是这样 assume 的。当然,严格的语义系统不应该用 句法的POS 而应该用 逻辑的POS 做top。譬如 manage 和 management 虽然是不同的句法 POS,但是却是相同的逻辑POS(动作类)。
白: ”这本书的出版“ 类似。
POS是语言教学向语言处理进化过程中留下的阑尾。
这个我也批评过,汉语的 POS 不是 parsing 的必要过程,但是很多人认为是,这是一个迷思 misconception。中文处理的迷思之二:词类标注是句法分析的前提:
词类标注(Part-of-speech Tagging: POS)是汉语句法分析的前提么?没有这回事。
没有词类,怎么可能施行句法分析?
谁说没有词类?词典里给出的任何类别标注都是一种“词类”。
根据 keep ambiguity untouched 的经验法则,遵循 adaptive development 的基本原则,跳过 POS 的环节,让句法分析直接建立在词典信息的基础之上,是解决矛盾的一个有效方法。
矛盾就是:词无定类,入句而后定。
ngram 搞不定 POS,那还不如不搞它。
这个迷思糊弄了多少汉语NLP人啊,绑住了我们的手脚。
山重水复疑无路,跳过POS就是杏花村。就这么简单!
认识上的一个小跳跃,实践中的一个大进步。
就是这么一个诀窍, untold secret for long:具体来说就是,只利用词典里面的静态类别信息来做分析,无须倚赖专有的POS模块先行消歧。
【相关博文】
泥沙龙笔记:汉语就是一种 “裸奔” 的语言 2015-10-05
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 11:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社