《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【一日一parsing: 屈居世界第零】

已有 1274 次阅读 2016-7-1 15:48 |个人分类:立委科普|系统分类:科研笔记|关键词:parsing,自动句法分析,SyntaxNet| parsing, 自动句法分析

张: 请@Wei用您的系统帮助分析一下,我们在做实验。想请教!

Flight B-938L executed four stages of flight  of Chengdu  to Fuzhou, Fuzhou to Zhoushan, Zhoushan to Fuzhou and Fuzhou to Chengdu  on that day, and took off  at 12:15 p.m. to continue the next stage of flight  in the simulated route after completing short-stop fueling at Zhoushan Airport  

@张 here it is:

总体过得去,细节上的错误包括: (1)地名到地名的平行结构 与 conj 之间的纠缠错误; (2) ... 好像也没有(2)了,没怎么见其他错误,连“took off” 的 hidden 逻辑主语也做对了。对了, short-stop fueling 掉了链子,patching 的时候,让后者做了逻辑主语 S,有些莫名其妙,较真的话,可以整一整。我们的parser独立于领域,没有经过领域的打磨:如果是针对订票系统,打磨的办法至少可以包括补充词典,不妨就把 short-stop fueling 词典化,也可以包括对常见的“地名to地名”结构的调适。

上面的系统五年多前就定型了,一直就没大改变,主要是觉得余地不大了,做功是 diminishing returns,直到最近 Google SyntaxNet 出来声称世界第一,吹得神乎其神(情有可原,毕竟深度神经在text上迄今无突破,欢欣鼓舞一下也是应该的,但声称第一就有点过分了)。

最近终于 set up 谷歌系统,费老鼻子劲了,系统庞杂,configure 颇不易。第一期 benchmarking 的比较工作已经完成,以最有利于谷歌系统的方式测量。结果没出意外:如果 SyntaxtNet 第一,我们只好屈居第零。其实在英语新闻文体上,两个系统基本是 on a par (94-95),我们略强,双方都到了 diminishing returns 的边缘。

第二期 我们可以转换领域做比较。要证明的是,规则系统比机器学习系统更善于适应不同的领域和文体。

第三期,如果可能,我们可以转换语言做比较:据说他们做了 15 个语言,而我们做了 18 个语言。特别是中文,忍不住想看看他们究竟做出个啥玩意儿。看看他们对于汉语的现象诸如离合词是不是有做。无论做没做,抛开他们n条街去几乎是板上钉钉的事儿。

第四期,我们还可以做其他指标的比较,速度和耗费资源等。目前在同样的硬件条件下,SyntaxNet 平均 5 秒钟 parse 一个句子,我们的处理速度大约高出近两个 magnitudes

严:

@wei 最后结果将以什么方式公布?

我:

自然。kidding 立委NLP频道(liweinlp.com)

董:

@wei 你的LinkedIn怎么出问题了?不砸锅也封号啊?

我:

不知道 我去看看。不过 我讥损微软更多。

我这边看没问题: https://www.linkedin.com/in/liwei4nlp

哦 估计董老师说的是 liweinlp.com (立委NLP频道),对,那个域名经营了两周,赶上了 15 天的 verification,暂时打不开,资料刚提交上去,静等放行。

董:

明白了



【相关】

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录





http://blog.sciencenet.cn/blog-362400-987999.html

上一篇:【泥沙龙笔记:说在高考发榜时】
下一篇:《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

1 陈辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-17 20:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部