|||
白:
【小新日记】
今日李叔叔来我家玩妈妈,说我做完作业后,可以吃点心。然后,李叔叔夸我作业做的好,于是抱起了我妈,妈叫叔叔小心一点,之后叔叔又亲了我妈妈,也亲了我。
老师批复:拿回家让你爸看看,是标点符号有问题还是你李叔叔和你妈妈有问题!
大家六一快乐
我:
看看我的parser怎么认为的,是标点符号问题吗?
妈耶,图灵测试说,此处有隐情。
抛开细节不说,两句中的 Subj (在我的 parser 中,不同于 S,是用来表达 VP 做主语的情况)显然规则太宽,把完全不搭的也绕进来了,是分析质量的 bugs:这个 VP 做主语的事儿不好缠,紧了吧,就连不上。不过现在看来,宁紧勿宽,大不了就是 Next 好了。
杨:
这可以算是nlp领域年度笑话,国内现在三更半夜 @wei 老师是要让我把假牙笑掉吗?
我:
我再加上正确的标点做做玩:
没来得及细看,各位说标点有很大作用吗?标点是小词,也是书面语重要的显性语言形式之一,在口语中对应停顿,对于语言理解往往相当重要。
再看看小新心中的日记正确标点:
最后这个图示中,“说”的后面是宾语从句,不是 conjs,这是个 bug,应该 de 一下的。“夸” 的后面也应该是宾语从句,或兼语式,总之不是 subj,这个也是 bug,除了这两个bugs,其余的语义算是求解正确。算起来,第一句 10 种结构关系出了 1 个 bug,第二句 25 个结构关系,出了一个 bug,33/35= 94%,
单就这两句来说,正好与谷歌声称的世界上最精准的 SyntaxNet 的分析器同样水平。
但是的但是:
1. 这不是英语,而是难得多的汉语自动分析
2 这不是具有几乎无限资源研究最充分的新闻领域,而是随机选取的日常段子
如果我说老子天下第一,我不觉得我比谷歌更会吹牛。
比吹牛,西人比得过咱国人吗?
切!
不管谁愿意做第三方,咱这里摆个擂台,一边是 SyntaxNet 的中文 parser(据说他们用深度神经训练了15个语言的parsers),一边是立氏中文parser,无论是新闻,还是 any other 测试集,找第三方专家做裁判。到底是他第一,还是我比他强(不敢说第一,不过是造了一颗原子弹而已,谁知道哪个旮旯还藏着一枚氢弹呢?先辈古训:说有易,说无难哪。)
杨:
睡了睡了 wei老师继续high
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 00:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社