【沙龙笔记:汉语构词和句法都要用到reduplication机制】
已有 4919 次阅读
2016-1-30 06:44
| 个人分类:立委科普 | 系统分类:科研笔记 |
汉语, 句法, 重叠, 构词, reduplication
洪:
过去有人打着红旗反红旗, 谷歌发明Go语言灭Go游戏。 这些比林彪还林彪的神马玩意, 想让骄傲的人类再也骄傲不起!
@wei 能否给我这四句油诗做个parsing,看看还算人话么?
我: 好。我现在不在机器旁。
@洪涛Tao 你的油诗的 parses below:
“林彪”活用为形容词使得 parsing 掉了链子
除此而外,其他的 parse links 还都说得过去。洪爷的诗是老妪能解啊。 至少从结构上看,基本是人话,比乔老爷的递归例举强多了。
洪: 好,神马 对应到 什么了。挺与时俱进!
白: 就是个词典。
洪: 窃以为你的parsing结果要通俗化,可以上面加一个deep learning做的mapping。借鉴alphago的做法。
我: mapping 做啥用? 为啥一切都往 DL 上靠?
parsing 就是提供一个结构基础,后去可以比较容易根据结构pattern(subtree)去抽取信息而已,或根据结构去精准检索,改善搜索引擎。理论上这些结构也可以大大提高统计模型,把关键词语言模型提升为结构语言模型,但实际上能够在结构和关键词之间玩好平衡的统计模型好手,也不多见。问题出在,扔掉关键词,完全利用结构 features 做模型,模型可能不够鲁棒,对 sparse data 也较难应对。如果既要结构也要关键词,那么 evidence overlapping 的处置是一个挑战。
我: 比NP还AP可以。比 X 还 X 目前还没进入系统。
但是并不困难,因为 unification 和 reduplication 的机制在,就是缺了一条 rule 去 cover 汉语口语中这个 pattern,比林彪还林彪,比乔老爷还乔老爷,比英雄还英雄。这种口语pattern充当谓语性AP。
我: 刚刚 加上了口语中的 reduplication rule 比x还x:
所谓愚公移山,大多指的是这一类。好像做不胜做,但毕竟还是有限的句式。做一个少一个吧。至于名词转成了谓语后,意义上是怎么通过联想而改变的,那就是另一个层次的问题了。
与林彪能联想上的是什么?(1)神机妙算?(2)阴谋诡计?(3)克己复礼? 不同人、不同的场景,有不同的理解。
譬如,与乔老爷对应的谓语呢?固执己见?登峰造极?极左? 持不同政见?如果乔老爷是指的国内的某个大财主,联想到的谓语可能是另外的意义了(贪得无厌?)
这一切都远远超出了结构分析的scope。
白:那名词以什么著称,就在那方向上更甚。 这个由语境决定了。 语义也只是留出替换接口。 看看那段时间的语料,以那名词为主语的,什么做谓语频次最高。如果谓语比较具体而分散,往上抽象几层看看抽象事件/关系的类别。
我:跟 “的子结构”与what-clause类似,其语义所指是不确定的。系统没必要替人去求解。何况各人的理解都可能不同。
【相关】
《新智元:填空“的子结构”、“所字结构”和“者字结构“》
《泥沙龙笔记:parsing 的休眠反悔机制》
【新智元:中文 parsing 在希望的田野上】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。 链接地址: https://blog.sciencenet.cn/blog-362400-953383.html
上一篇:
《新智元:填空“的子结构”、“所字结构”和“者字结构“》 下一篇:
“任免”的说法