《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

已有 2501 次阅读 2016-1-30 06:44 |个人分类:立委科普|系统分类:科研笔记|关键词:reduplication,重叠,汉语,句法,构词,parsing| 汉语, 句法, 重叠, 构词, reduplication

洪:

过去有人打着红旗反红旗,
     谷歌发明Go语言灭Go游戏。
     这些比林彪还林彪的神马玩意,
     想让骄傲的人类再也骄傲不起!

@wei 能否给我这四句油诗做个parsing,看看还算人话么?

我: 好。我现在不在机器旁。

@洪涛Tao 你的油诗的 parses below:


 
 

“林彪”活用为形容词使得 parsing 掉了链子
除此而外,其他的 parse links 还都说得过去。洪爷的诗是老妪能解啊。至少从结构上看,基本是人话,比乔老爷的递归例举强多了。
洪:好,神马 对应到 什么了。挺与时俱进!
白: 就是个词典。
洪: 窃以为你的parsing结果要通俗化,可以上面加一个deep learning做的mapping。借鉴alphago的做法。
我: mapping 做啥用?为啥一切都往 DL 上靠?
parsing 就是提供一个结构基础,后去可以比较容易根据结构pattern(subtree)去抽取信息而已,或根据结构去精准检索,改善搜索引擎。理论上这些结构也可以大大提高统计模型,把关键词语言模型提升为结构语言模型,但实际上能够在结构和关键词之间玩好平衡的统计模型好手,也不多见。问题出在,扔掉关键词,完全利用结构 features 做模型,模型可能不够鲁棒,对 sparse data 也较难应对。如果既要结构也要关键词,那么 evidence overlapping 的处置是一个挑战。
我: 比NP还AP可以。比 X 还 X 目前还没进入系统。
但是并不困难,因为 unification 和 reduplication 的机制在,就是缺了一条 rule 去 cover 汉语口语中这个 pattern,比林彪还林彪,比乔老爷还乔老爷,比英雄还英雄。这种口语pattern充当谓语性AP。

我: 刚刚加上了口语中的 reduplication rule 比x还x:


 

所谓愚公移山,大多指的是这一类。好像做不胜做,但毕竟还是有限的句式。做一个少一个吧。至于名词转成了谓语后,意义上是怎么通过联想而改变的,那就是另一个层次的问题了。

与林彪能联想上的是什么?(1)神机妙算?(2)阴谋诡计?(3)克己复礼?不同人、不同的场景,有不同的理解。

譬如,与乔老爷对应的谓语呢?固执己见?登峰造极?极左? 持不同政见?如果乔老爷是指的国内的某个大财主,联想到的谓语可能是另外的意义了(贪得无厌?)

这一切都远远超出了结构分析的scope。

白:那名词以什么著称,就在那方向上更甚。这个由语境决定了。语义也只是留出替换接口。看看那段时间的语料,以那名词为主语的,什么做谓语频次最高。如果谓语比较具体而分散,往上抽象几层看看抽象事件/关系的类别。

我:“的子结构”与what-clause类似,其语义所指是不确定的。系统没必要替人去求解。何况各人的理解都可能不同。


【相关】

《新智元:填空“的子结构”、“所字结构”和“者字结构“》 

《泥沙龙笔记:parsing 的休眠反悔机制》 

【新智元:中文 parsing 在希望的田野上】 

【置顶:立委科学网博客NLP博文一览(定期更新版)】  




http://blog.sciencenet.cn/blog-362400-953383.html

上一篇:《新智元:填空“的子结构”、“所字结构”和“者字结构“》
下一篇:《新智元笔记:汉语parsing以及所面对的汉语的意合特点》

1 李颖业

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-27 11:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部