《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《新智元笔记:汉语parsing以及所面对的汉语的意合特点》 精选

已有 3302 次阅读 2016-1-30 08:10 |个人分类:立委科普|系统分类:教学心得| 汉语, parsing, 话题, subcat, 填坑

宋: 北京西郊宾馆大堂门口有个电子屏幕,显示了两行字。第一行:“水中有毒污染物多”,第二行“指标快速检测仪器项目启动会”。
能parser吗?
白: 这个换行对parser不是个事儿吧?只有视觉对此敏感
宋: 就是所谓“花园幽径”问题,但汉语的意合太难把握了,人认为不可能的机器不一定认为不可能。不知委哥的parse结果如何?
白:“检测”挖坑,前面毒物填坑。但是这个例子基本是在玩构词法。构词法搞定了,句法就不复杂了。
宋: “指标”能填“检测”的坑,但“指标”本身可以带坑,也可以不带坑。
白: 是
宋: “污染指标”、“健康指标”都好说,现在是“多指标”,又是关于“污染物”的指标,而“污染物多”是一个很顺的主谓结构。
白: 水中有毒,也是个很顺的句子。
宋: 汉语主语-话题研究中的一个经典例子是“这场火,幸亏消防队来得快。”
白: 不必加逗号。
宋: 我又看到一个类似的例子,出自《围城》:这车票难买得很,【这车票】天没亮就得上车站去挤,【这车票】还抢买不到,
白:第二句有问题。人去挤。

我: 试一试吧:


上句对,下句(不是句子. 是NP?)不对。




白: 其实这个换行不一定是一个符号,更不一定是句分隔符
我: 这一句基本没问题,都照顾到了
宋: 从论元角度看,“挤”应当有个施事的坑,由“人填,但真实汉语中未见的如此。
白: 这个例子里,两种策略的长短有所显现,方便对比。
我: 注意到没有,”这车票“ 我的 parser 分析出两种可能,既是主语也是宾语。
哈哈。给我一点意外惊喜。英语也有类似的动宾远距离搭配:
this mistake is easy to make
“买票”与“洗澡”一样是可分离动宾结构的合成动词。以前做过处理的。
这就是开心时刻:你不知何时教给机器 something,你或者忘了,或者不确定机器是否学会了,后来看到它差不多通过“图灵式”测试,你就不会不开心得意。此前在英语开发过程中,这种开心时刻更多、更频繁,因为日积月累多了,而它又不笨,总免不了制造惊喜。要是训狗的话,表现好肯定会多砸给它几个肉包子奖励。可死机器,任劳任怨,没任何要求,还不如小冰。
宋: “公司总经理王大明” 这是一个NP吗?中国大百科全书的”北伐战争“条目有这样的话:国民革命军总司令蒋介石。
白: 为啥不是NP?
宋: 汉语的句法结构严重依赖于上下文。这个例子中是NP+NP=主谓
我: euiv 是同位语,dummysubj 就是平常说的汉语句法中的话题。
白: 我不认为是主谓。
我: “我一个穷学生”。的确是主谓。那个不是主谓,而是同位语。逻辑上说第一个NP是谓词也可以。
宋:要看上下文。“我一个穷学生能有什么办法?”中“我一个穷学生”是NP+NP=NP

“我一个穷学生,只能这样了”。NP+NP=主谓。“我一个穷学生能有什么办法”也可以看成“我,一个穷学生,能有什么办法”,因而可以看成Subj,Pred,Pred

“国民革命军总司令(是)蒋介石,副总司令是……”。 百科全书说的是:“编组情况是”。既然是“情况”,就是命题,而非命题项。

我:目前的parse是这样:

宋:汉语的组织是意合,就是直接冲着语义去的,有时做主谓分析反而误事。但为了理解语义,还得有一个语法结构,但这个结构不一定非得是主谓宾定状补。

“谢兰英的腰身也微微地挺了挺,扶在椅背上的两只手也挪下来”(莫言《倒立》)


“谢兰英的腰身”是定中,但定语的核心“谢兰英”有被拆出来做了第二句的主语。有人说“谢兰英”不是第二句的主语,而是主语的定语。那就更复杂了。人脑的理解过程真的要这样捆了又拆,拆了又捆吗?似乎不大符合经济性原则。
董振东老师曾说过,“星期一二三”应该捆起来,成为一个词。这是汉语的实际。但是,还有这种情况:“星期一二三是结婚的好日子,尤其是星期三;四五六一天坏似一天。”所以汉语的词和语的体系也需要研究。
白: 这些问题有一大半是不该parser来做的。parser可以只看字面,不理会号称省略的部分,分析不成句子,能分析出phrase没有任何不妥,其实无需试图“还原”任何句子。只要在语义层面借助能够已有的结构或成分组装新结构,就足够了。借助的既然是语义层面的东西,句法就随他去了。
宋: 你说的有道理,但是“字面”如何界定?上例中“四五六一天坏似一天”前后都是标点,如何parse?
白: 四五六做主语,
宋: 要留多大的修正余地呢?怎么知道“四五六”不是寻常意义的四五六呢?
白: 先不管,交给语义
宋: 这样语义就没边没沿了。单纯看“四五六一天坏似一天”,第一个可接受的理解是四五六号。所以,字面还得看上下文。星期一二三是结婚的好日子,四五六一天坏似一天,需要将第二句和第一句一截一截地对接,看如何接最顺,也就是你说过的接“桩”。
白: 四五六是需要“桩”的,优先嫁接上下文当中可用的“桩”。但这个上下文当中,句法不要有“桩”,交给语义。
宋: 所以也许应该要先接桩,再分析。你的意思是先parse,再接桩?接桩的时候再把parse捆上的东西打开来?
白:以标点句为单位,句法先到语义,再下一个标点句

宋:我还不大明白,你具体说说看。就以这两个标点句为例。


【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》 

【新智元:中文 parsing 在希望的田野上】 

《新智元笔记:NLP 系统的分层挑战》 

 《泥沙龙笔记:连续、离散,模块化和接口》 


【置顶:立委科学网博客NLP博文一览(定期更新版)】  






http://blog.sciencenet.cn/blog-362400-953388.html

上一篇:【沙龙笔记:汉语构词和句法都要用到reduplication机制】
下一篇:“任免”的说法

4 黄永义 刘钢 李颖业 s11s

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-7-6 14:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部