《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【deep parsing (80/n):植树成林自成景】

已有 5302 次阅读 2016-6-9 15:20 |个人分类:立委科普|系统分类:教学心得| 句法树

白:

“如果昨天是明天,那么后天就是星期天。”英文怎么翻译?

我:

If yesterday is(were) tomorrow, then the day after tomorrow will(would) be Sunday.

today is 06/08/2016 W, yesterday is 06/07/2016 Tu

tomorrow is 06/09/2016 Th and the day after tomorrow is 06/10/2016 Fr

if 06/07/2016 Tu is 06/09/2016 Th (i.e. +2), then 06/10/2016 Fr will be 06/12/2016 Sunday (also +2).

Google translate:

If yesterday was tomorrow , then the day after tomorrow is Sunday .

Baidu:

If yesterday is tomorrow, the day after tomorrow is Sunday.

白:

用were,机器做得到?

我:

were 可以做到,有啥难的,不过谷歌没有做到,用的是 was.

不过也不必苛求了,这是 generation 的小瑕疵,不影响对翻译的理解

白:

随身坐标系

我:

if 从句谓语 be 用 were: 当过英文老师的都会这么教给学生,很清晰的虚拟式形式。

白:

如果这句话出现在古人说话的引语里,伟哥的直接计算法就是歪打正着了。


我:

why 歪打正着?

白:

因为他们说的昨天,参照系与你的不同

我:

昨天的一些 parsing 测试样本:


还有一个段子:



“配种”似乎有个坑,要求复数NP,或者两个NPs的conjoin,或者一个 NP (主语)和一个 PP(“与”)

白:

其中一方已经在了,只需要招揽另一方subcat了

我:

问题是汉语基本上没有数,仅有的可有可省的“们”还不能用于非人。于是“母猪”的单复数不定,

unification grammar 里面,称这个feature 是 unspecified,可以 unify with 复数(or 单数)的条件

有趣的事儿发生了:“母猪” 是 female pig 与 female pigs 均可。因此 subcat 在句法层面已经满足

如果我们 unifiy 到 female pigs,常识这时候应该进来了

白:

母猪是否复数与配种的坑无关啊

我:

复数的subcat的要求只是语言学知识对于人类知识的一个粗糙反映。

白:

比如,大丫和二丫的婚事

说的是两个女性各自的婚事

满足分配律了

我:

因为母猪与母猪不能配种(常识),所以即便 female pigs 等价于 (a) female pig and (another) female pig,我们也不能认为 subcat 已经满足了

打回去重来。于是认定“母猪”为单数,就留下了一个坑,可以去找 “NP and

这种不成短语的 form

白:

回炉,组成未登录词

我:

有点晕了

问题在 NP:NP1 and NP2 与 (NP+VB)+N 的纠缠。(上面的tree实际上是个 patching 的结果,凑合了吧。)

白:

后者是构词法,前者是句法

我:

对,是合成词的构词法。

汉语合成词是如此地具有扩展性,以至于一端像个后缀or类后缀,另一端可以是一个句子

白:

构词法要求那个N出现在合成词中有足够大的频度:

“基地”“中心”之类

我:

NP+VB 就是一个 internal clause

白:

统计可以帮到你

我:

等到统计来帮忙,黄花菜都凉了

白:

VB不能太口语化,类似“来到”“坐下”肯定不行:

“张三来到中心”,肯定不是合成词

我:

怎么界定呢?好像是汉语有一类二字动词,特别“实心”,没想好叫什么名字好。总之是把这类动词区别出来对很多规则的条件制约有好处。

“实心” 是指动词里面没有小词:譬如动词内部不能是述补结构。因为词内的补语基本上都是小词,e.g. 来到

白:

睡醒,也不行

我:

述补 啊。“醒”不是严格的小词,但也差不多了

这个区分 大数据应该真地可以帮到。不就是把动词一分为二嘛,帮助区分 “动宾” 和 “偏正”。而且偏正中的那个【正】可以是 driving word,预先给定的。然后就到大数据里面统计。

白:

就是

我:

常识是危险的。如果认为 母猪与母猪 配种违背常识 应该打回去重来,那么我们如何理解 人与母猪 这种更加违背常识的配种?

白:

段子就是在常识与反常识之间游走的

我:

对了,那个段子的最后的NP究竟是怎么回事?

“广州市人和母猪配种基地”

难道“人和”是品牌名?

白:

我:

跟“美的”类似?

这些起名的人都该杀无赦

宋:

人和是地名

我:

还好侮辱的是广州市人,我们外省的人逃过

宋:

没有这么个单位,故意编造逗乐的。

我:

未来的品牌登记处应该配备一个parser,创造一些context去parsing, 出来无歧义,品牌可以登记在册;有歧义,不予批准。人名地名均如此。

那个 long马戏 是怎么回事?

白:

长隆,也是品牌名

“张三救过命的县长昨天来了。”

梁:

@白 怎么您出的中文题那么费琢磨。 或许是我的中文水平掉下去了。

白:

@梁 这个不是昨天讨论过了

梁:

这个,这么说中文行吗?后半句等价于“今天在高考的说不定变成你的老婆”吗?

我是说,我看半天没看明白。可能已经不适应文化了。

白:

我们不说“张三救命过李四”而说“张三救过李四的命”。

“救命”作为离合词,还原以后是及物动词,但还原形态是不说的。离合形态下,“命”是有坑的,填坑的恰恰是那个还原以后及物动词的逻辑宾语。

梁:

的确像变魔术。

白:

吃他的醋,吃他的亏,上他的当

雷:

上她的床


这个好像半熟,要 debug 一下: 张三不直接修饰县长,应该是定语从句的主语。


【相关】

【立委科普:美梦成真的通俗版解说】

【立委随笔:中文之心,如在吾庐】

【新智元:parsing 在希望的田野上】

坚持四项基本原则,开发鲁棒性NLP系统

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】


【置顶:立委科学网博客NLP博文一览(定期更新版)】  





https://blog.sciencenet.cn/blog-362400-983462.html

上一篇:【立委科普:NLP应用的平台之叹】
下一篇:《泥沙龙笔记:微软 Natural Interface 回顾》
收藏 IP: 192.168.0.*| 热度|

2 杨正瓴 李竞

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-21 22:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部