博文

【一日一parsing: 屈居世界第零】

已有 2737 次阅读 2016-7-1 15:48 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动句法分析

张：请@Wei用您的系统帮助分析一下，我们在做实验。想请教！

Flight B-938L executed four stages of flight of Chengdu to Fuzhou, Fuzhou to Zhoushan, Zhoushan to Fuzhou and Fuzhou to Chengdu on that day, and took off at 12:15 p.m. to continue the next stage of flight in the simulated route after completing short-stop fueling at Zhoushan Airport

@张 here it is:

总体过得去，细节上的错误包括：（1）地名到地名的平行结构与 conj 之间的纠缠错误; (2) ... 好像也没有（2）了，没怎么见其他错误，连“took off” 的 hidden 逻辑主语也做对了。对了, short-stop fueling 掉了链子，patching 的时候，让后者做了逻辑主语 S，有些莫名其妙，较真的话，可以整一整。我们的parser独立于领域，没有经过领域的打磨：如果是针对订票系统，打磨的办法至少可以包括补充词典，不妨就把 short-stop fueling 词典化，也可以包括对常见的“地名to地名”结构的调适。

上面的系统五年多前就定型了，一直就没大改变，主要是觉得余地不大了，做功是 diminishing returns，直到最近 Google SyntaxNet 出来声称世界第一，吹得神乎其神（情有可原，毕竟深度神经在text上迄今无突破，欢欣鼓舞一下也是应该的，但声称第一就有点过分了）。

最近终于 set up 谷歌系统，费老鼻子劲了，系统庞杂，configure 颇不易。第一期 benchmarking 的比较工作已经完成，以最有利于谷歌系统的方式测量。结果没出意外：如果 SyntaxtNet 第一，我们只好屈居第零。其实在英语新闻文体上，两个系统基本是 on a par （94-95），我们略强，双方都到了 diminishing returns 的边缘。

第二期我们可以转换领域做比较。要证明的是，规则系统比机器学习系统更善于适应不同的领域和文体。

第三期，如果可能，我们可以转换语言做比较：据说他们做了 15 个语言，而我们做了 18 个语言。特别是中文，忍不住想看看他们究竟做出个啥玩意儿。看看他们对于汉语的现象诸如离合词是不是有做。无论做没做，抛开他们n条街去几乎是板上钉钉的事儿。

第四期，我们还可以做其他指标的比较，速度和耗费资源等。目前在同样的硬件条件下，SyntaxNet 平均 5 秒钟 parse 一个句子，我们的处理速度大约高出近两个 magnitudes

严:

@wei 最后结果将以什么方式公布？

我:

自然。kidding 立委NLP频道（liweinlp.com）

董:

@wei 你的LinkedIn怎么出问题了？不砸锅也封号啊？

我:

不知道我去看看。不过我讥损微软更多。

我这边看没问题： https://www.linkedin.com/in/liwei4nlp

哦估计董老师说的是 liweinlp.com （立委NLP频道），对，那个域名经营了两周，赶上了 15 天的 verification，暂时打不开，资料刚提交上去，静等放行。

董:

明白了

【相关】

【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】

【置顶：立委NLP博文一览（定期更新版）】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-987999.html

上一篇：【关于人工智能】
下一篇：《扫了 sentiment，NLP 一览众山小：从“良性肿瘤”说起》

收藏 IP: 192.168.0.*| 热度|

当前推荐数：1 推荐人：陈辉

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李维

扫一扫，分享此博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【一日一parsing: 屈居世界第零】

当前推荐数：1 推荐人：陈辉

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【一日一parsing: 屈居世界第零】

当前推荐数：1 推荐人： 陈辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：陈辉

该博文允许注册用户评论请点击登录评论 (0 个评论)