《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【一日一parsing:他 / 喝了 / 三碗 / 汤】

已有 3064 次阅读 2016-11-15 10:55 |个人分类:立委科普|系统分类:科普集锦| 中文处理, 自动句法分析

bai:

“他汤喝了三碗”

问题:“三碗”指向“汤”还是“喝”还是自己的省略被修饰语?

问题:它和“他喝了三碗汤”在语义上等价吗?

马:

强调的内容不一样吧,前者强调喝了三碗的是汤不是别的,后者强调是三碗

我:

要挖出变式的 nuances,不如把表层结构包括词序的差异保存 等到落地的时候 由应用的需要来决定这种差异是不是有必要。脱离落地谈细微差别 及其抽象表达,容易莫衷一是 也容易丢了西瓜。

他喝了三碗汤
他喝了汤三碗
三碗汤他喝了
汤他喝了三碗
他汤喝了三碗
? 他三碗喝了汤
? 三碗他喝了汤

最后两个变式走在句法的边缘。

一个标签是 Mod,一个是 buyu,其余皆同,包括可分离动词合成词“喝汤”,表层结构的所有信息,包括词序,也都 accessible if needed。因为 parer 的内部 representation 通常是增量的、信息 enrich 的过程,除非是信息更新为了改正一个错误,过去的或历史的信息并不丢失。这也是我们以前说过的为什么休眠唤醒机制可以work,因为被唤醒的原始状态并没有丢失,一个子串永远可以重来,二次 parsing。推向极端就是,整个一个句子都可以推倒重来,因为原始的 token string 并没丢弃。当然,实际上的休眠唤醒几乎永远是针对句子中的一个子树,再糟糕的 parser 也不至于全错需要重新来过。



Topic 再进一步转为 S 就完美了,语义中间件还有细致的工作可做。


最后这两句句法边缘的句子不是不可能出现,但比较罕见,对于毛毛虫边缘的毛刺部分的现象,合法非法中间的数据,如果不常见,那就拉倒,parser 出啥结果都无需太 care,反正有做不完的活计,不值当在它们身上花时间。



【相关】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录






https://blog.sciencenet.cn/blog-362400-1014870.html

上一篇:Small talk with Daughter on US Election
下一篇:【李白对话录之九:语义破格的出口】
收藏 IP: 192.168.0.*| 热度|

1 李竞

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 10:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部