《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:汉语 parsing 涉及重叠的鸡零狗碎及其他】 精选

已有 3071 次阅读 2016-3-20 01:20 |个人分类:立委科普|系统分类:科研笔记|关键词:中文NLP,汉语自动分析,重叠,句式,parsing,reduplication| parsing, 句式, 重叠, 汉语自动分析, 中文NLP

我: 条件反射了,一看到 ”伟大的中文“ 或 ”精妙的中文“ 的标题,就忍不住想 parse parse 看看(重叠reduplication)。


我: 虽然是对联似的歌词,结构其实与现汉一样蛮清晰的

白: “有”应该彻底做定语

我: why??这不是典型的 有+宾+宾补 句型么

白: “有NP VP”和“一个NP VP”逻辑上是同构的。有不当动词用,更接近本质。“没”单用也是一样。

我: 明白你说的意思,不过这事儿很微妙,两说着

我对于这类现象,也有那种处理,目前条件是要求 “有” 在句首。句首的“有”,虚化得厉害,其他的“有”真地不好说,因为前面可能再出现主语或其他的谓语连带成分,不能就把它一杆子打下去。

白: 当然不是所有。

我: 句首的“有”:“有个教授下午来”;“有教授下午来”

白: “我猜有人会紧张了”。

这不是问题,裸量词也是定语,相当于定语叠加了。“有”和“个”分别被“教授”吸收。一个表存在,一个定数量。

我: 语言学上是不定(indefinite),相当于英语的 some 或不定冠词 a

白: 不出现“个”,就是some;出现“个”,就是a。“拿个(根)鸡毛当令箭”,裸量词也是一样作定语。在这个意义上,数词就是状语。

我: 个 = 一个,省略了“一” 如果是修饰宾语N的话。但主语N的量词则不能省“一”。可以没有数量,但一旦有量,必须有数。量却可以省。“一妹子来看你”。量一般不能省,偶尔可。

白: 有个名句“把个特务跑了”,逻辑主语,虽是宾格。“给我一枪吧……”

我: 一枪是动量结构做补语,不是带有名量结构的“一把枪” NP 做宾语。

白:  俩=两个;仨=三个,一个,没有俩仨那样的字对应

我: 方言性质,我们江南就没有“俩”和“仨”。

白: 一+名词,北京口语这么说不少,普通话不是

梁: @wei 你这个 parser 很厉害!

我: @梁 谢谢,来之虽晚,却之不恭。kidding ...

还没有加 ontology 的核心呢(正在加),只可算爬到了半山腰,但山巅已然可见。

再过三个月半年看,可以不可以感受一次会当凌绝顶的VR(虚拟现实)。


我:这个句型算什么状语?v 是重叠词或短语(重叠以前做过的句型有: x 是 x , y 是 y):

       v 就 v,(反正)。。。

       不 v 就 不 v

“走就走,谁稀罕你似的”
“不要就不要,有啥了不得”
“没做就没做,你能拿我怎么样?”
“瞎了眼就瞎了眼,反正是我倒霉,关你什么事”
“坏就坏,我不在乎”
“有钱就有钱,反正我也高攀不上”
“不关机就不关机, 反正不上飞机老子一辈子不关机!!”
“罚站两小时就罚站两小时,我扛得住”

以前说过,重叠(reduplication)现象在汉语不仅限于造合成词(abab,aabb,abb之类),而且也常用作句法手段在各种句式里。

“要我走就要我走,我早就不想呆了”

该句式呼应的小词有:反正 、大不了、早就、不在乎、稀罕、最多、顶多、扛得住、顶得住、受得了。。。

很像让步状语,但让步状语( 即使......)和条件状语(倘若......),都是虚拟,而这个状语却是针对 “已然”(已经发生的动作)。一般是负面的、有害的行为,主句说的是不畏惧,自己给自己打气。这个表达法有点意思。好像这类状语还没个名字?还有其他的表达方式么?

还有一个句式:爱 x x

“爱谁谁”
“爱咋咋”
“爱走走 不留你”
“爱微信微信 爱非死不可非死不可”
“爱阴谋阴谋 爱阳谋阳谋 谁怕谁”
“爱堕落堕落 我爱莫能助”

可以加“就”,或者说上述句式省略了“就”:


“爱吃鳕鱼就吃鳕鱼,反正不是我的选择。”
“爱点豆酥鳕鱼就豆酥鳕鱼 我没有意见 领导说。”

“你爱点鳕鱼就点鳕鱼” 意思是,“你如果想点鳕鱼 你就点”

白: 这不应是句法管的事情,只不过重复模式可以强化提示某种复句标签而已,就算啥都不提示,不是还有Next兜底么。

我: 不管如何 parse? 结果都成了: vp NEXT vp NEXT vp ......

白: 不上规则主体,最多当成trigger……

我: 谁 VP1 谁 VP2 ,“谁”的重叠句式,对应于英语 whoever,或者 those who VP1 will VP2

“谁出问题谁擦屁股。”

类似的句型还有:什么 AP 就 V 什么

“什么热就学什么” == whatever is hot, go for it.

也可以是主句主语:什么 AP 什么就 VP

“什么热什么就招财”

类似的还有疑问词“哪个”和“怎么”:

“哪个漂亮就找哪个”
“哪个漂亮哪个就一路顺风”
“哪个愚蠢哪个就完蛋”

“怎么方便怎么来”

“怎么”这个句式的扩展性似乎弱一些。

汉语口语,这些鸡零狗碎的句式还真不少。这些玩意儿 pattern matching 最拿手,就是扩展的 ngram,gram 是动态句素,不仅仅是静态的 token(词)。匹配不仅仅是 fsa formalism,而是带有 unification 的 fsa++ 机制。

统计模型怎么对付这些个玩意呢?譬如 smt(统计型机器翻译)怎么翻译?“爱咋咋”好办,它不扩展,应该从语料中学出来的,到了英语就是 whatever。“爱吃鳕鱼吃鳕鱼”,smt 是不是就傻了?试一下:



smt 任重道远涅!(连“爱咋咋”都没对,往好里揣度是训练数据集可能压根就没有口语或社会媒体的双语材料。)

才意识到我前句的歧义:“不管如何parse”

(1)(If) not handling (this pattern) how (can we) parse (it?)

(2)No matter how to parse it

汉语口语的条件状语经常省略小词“如果”,真心可恨。这是铁心要逼我们上fsa+++梁山的阵势。


【相关】

《新智元笔记:汉语parsing以及所面对的汉语的意合特点》 

【新智元:中文 parsing 在希望的田野上】 

【征文参赛:美梦成真】

【立委科普:语法结构树之美(之二)】

【置顶:立委科学网博客NLP博文一览(定期更新版)】  








http://blog.sciencenet.cn/blog-362400-963646.html

上一篇:【新智元笔记:强弱人工智能之辩】
下一篇:10 周年入职纪念日有感

1 黄永义

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-21 20:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部