《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:两条路线上的NLP数据制导】 精选

已有 4291 次阅读 2016-6-3 17:27 |个人分类:立委科普|系统分类:科研笔记| 数据制导

数据制导开发NLP系统自然是光明正道,但也不能被数据机械地牵着跑;抓大放小,要有所为有所不为。在机器学习那边,本性就是数据为王,数据牵着跑是天然合理的。但人家有统计做底,抓大放小是自然的,只不过每一轮训练,抓的是哪些大,又放掉了哪些小,常常超出了人的直接掌控,使得针对性的 debug 成为挑战。隔靴搔痒就是说的这个。因为“小”与“小”不是等值的,不能直接掌控去针对性地解决某些“小”,不能不说这是统计系统的一个缺陷。对于 overfitting,那就加大训练集去矫正它。但对于结构缺乏造成的稀疏数据,正如宋老师所说,加大训练集是杯水车薪。对于没有结构的线性序列,因为其本质就是组合爆炸,再大的训练集也无济于事。唯一的办法是要把结构带进去,不管带进这种“杂种”的 features 造成多大挑战,还真没有其他更好的办法。
迄今为止带进 structures 做学习的系统,似乎研究得很不够,倒不完全是杂种的挑战,这种挑战以学习那边的天才聚集总是可以找到良策的,更多的是因为根本就没有一个靠谱的 parser 等在那里为学习的人服务。如今不同了,parser 的条件越来越成熟,下一步可以看好的是 DP+DL:deep parsing 支持 deep learning 保不准会是 text 的突破口。
扯远了,回到grammar enginnering 这边的系统开发原则来。
因为这边没有一个硬的统计作为制约,因此迷失在数据(dev corpus)中的情形在没有经验的语言学家,是常见的现象。因此,作为架构师和指挥者,就必须不断灌输一些开发原则(如,对于因果链循事不过三的原则),分享经验教训,不要被局部的数据牵着跑。学习靠的是 labeled corpus (非监督不论,当下不值得论),grammar engineering 靠的是 dev corpus + tested corpus(注意:不是 testing corpus),都是数据制导,但其实各有利弊。dev corpus 是 raw corpus,tested corpus 算是 labeled corpus,是系统自动生成的结果,它的日积月累就构成了 baseline 的不断更新。随着系统的不断开发, dev corpus 越来越多的案例转移进了 tested baseline corpus,保证了系统一步步逼近真理。 真理是大话了,其实是保证了系统天天向上。

有意思的是,维护这样一个 baseline,如果用心,实际上比依赖一个预先请人工 label 好的 corpus 更有好处。 所有的灰色在人工标注中都很尴尬,但是在 baseline 的维护者也是开发者手中就可以根据需要和痛点见机行事灵活处置。这种灵活对于有经验的开发者是福音,但对于新手可能是灾难。今天就到此了。


我:

这一阵子笔记爆炸,backlog 太长,根本就整理不过来。整多少算多少吧,至少不是白开水。

张:

@wei绝对大师范,再见面一定得找李老签名啦!致敬,wei!

我:

张老师是 grammar engineering 的实干派,我更多是宣传家。如果只干不说,世界上怎么知道还有这一路的系统呢?如今满耳朵只听到的是谷歌 SyntaxNet,这狗那狗的,昨天 Facebook 又弄出个 Deep Text,搞得全世界都在议论。

Deep Text 那篇报道所举的例子,用户想出行的不同表达,系统自动建议 Uber,在有 deep parsing 做底的系统来看,不是小菜一碟 piece of cake 吗?弄得那么深奥似的。今天圈子内部在传 Facebook 的 AI大举动,搞得好像发现了什么了不起的技术似的,关键还是产品经理要懂得提出这样的要求。做产品的不能消化,技术再强,又有何用?Facebook 有平台和用户,看到了利用NLP的市场角度,于是 Uber 这样可以成为送钱的主儿。



【相关】

【新智元笔记:做NLP也要见好就收,适可而止】

【新智元笔记:工程语法与深度神经】

【科普小品:NLP 的锤子和斧头】


《立委随笔:语言自动分析的两个路子》


钩沉:Early arguments for a hybrid model for NLP and IE


【李白对话录:你波你的波,我粒我的粒】 


【置顶:立委科学网博客NLP博文一览(定期更新版)】  





https://blog.sciencenet.cn/blog-362400-982246.html

上一篇:【泥沙龙笔记:关于语法工程派与统计学习派的总结】
下一篇:【科普小品:NLP 的锤子和斧头】
收藏 IP: 192.168.0.*| 热度|

2 黄永义 bridgeneer

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 21:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部