《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【deep parsing 小品:谁的牛皮大,大家六一快乐】

已有 2982 次阅读 2016-6-1 00:00 |个人分类:立委科普|系统分类:科普集锦| parsing, 谷歌, syntaxnet, 中文, 自动分析

白:

【小新日记】

今日李叔叔来我家玩妈妈,说我做完作业后,可以吃点心。然后,李叔叔夸我作业做的好,于是抱起了我妈,妈叫叔叔小心一点,之后叔叔又亲了我妈妈,也亲了我。

老师批复:拿回家让你爸看看,是标点符号有问题还是你李叔叔和你妈妈有问题!

大家六一快乐

我:

看看我的parser怎么认为的,是标点符号问题吗?



妈耶,图灵测试说,此处有隐情。

抛开细节不说,两句中的 Subj (在我的 parser 中,不同于 S,是用来表达 VP 做主语的情况)显然规则太宽,把完全不搭的也绕进来了,是分析质量的 bugs:这个 VP 做主语的事儿不好缠,紧了吧,就连不上。不过现在看来,宁紧勿宽,大不了就是 Next 好了。

杨:

这可以算是nlp领域年度笑话,国内现在三更半夜 @wei 老师是要让我把假牙笑掉吗?

我:

我再加上正确的标点做做玩:


没来得及细看,各位说标点有很大作用吗?标点是小词,也是书面语重要的显性语言形式之一,在口语中对应停顿,对于语言理解往往相当重要。

再看看小新心中的日记正确标点:


最后这个图示中,“说”的后面是宾语从句,不是 conjs,这是个 bug,应该 de 一下的。“夸” 的后面也应该是宾语从句,或兼语式,总之不是 subj,这个也是 bug,除了这两个bugs,其余的语义算是求解正确。算起来,第一句 10 种结构关系出了 1 个 bug,第二句 25 个结构关系,出了一个 bug,33/35= 94%,

单就这两句来说,正好与谷歌声称的世界上最精准的 SyntaxNet 的分析器同样水平。

但是的但是:

1. 这不是英语,而是难得多的汉语自动分析

2 这不是具有几乎无限资源研究最充分的新闻领域,而是随机选取的日常段子

如果我说老子天下第一,我不觉得我比谷歌更会吹牛。

比吹牛,西人比得过咱国人吗?

切!

不管谁愿意做第三方,咱这里摆个擂台,一边是 SyntaxNet 的中文 parser(据说他们用深度神经训练了15个语言的parsers),一边是立氏中文parser,无论是新闻,还是 any other 测试集,找第三方专家做裁判。到底是他第一,还是我比他强(不敢说第一,不过是造了一颗原子弹而已,谁知道哪个旮旯还藏着一枚氢弹呢?先辈古训:说有易,说无难哪。)

杨:

睡了睡了 wei老师继续high


【相关】

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

【征文参赛:美梦成真】

【立委科普:美梦成真的通俗版解说】

【新智元笔记:工程语法与深度神经】

【deep parsing 小品:天涯若比邻的远距离关系】

【李白对话录:你波你的波,我粒我的粒】 

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

【置顶:立委科学网博客NLP博文一览(定期更新版)】





http://blog.sciencenet.cn/blog-362400-981582.html

上一篇:【deep parsing 小品:天涯若比邻的远距离关系】
下一篇:【立委科普:自然语言系统架构简说】

2 徐晓 陈辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-23 03:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部