《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

科研围脖:提上来,再谈查全率和大海捞针

已有 6394 次阅读 2013-7-29 00:38 |个人分类:立委科普|系统分类:教学心得| 查全率

[6]白图格吉扎布  2013-7-28 22:58

文章标题:大数据NLP论

有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。


博主回复(2013-7-29 00:35)不是说“孤本”就没有价值,大海里面的那颗特定的针也许真地价值连城。但是,不能指靠自然语言系统能够捞到那针,事实上,不能指靠任何系统有这种能力,原因在文章中也提到了:对于孤本的无能,不仅仅是技术难关,不仅仅是引擎查全率的缺陷,即便上帝允许100%查全率自然语言挖掘引擎的存在,一个“孤本”也完全可能由于引擎以外的众多原因而够不着它:server down,database problem,经济羁绊而未进入index,存有孤本的那台机器死机了,等等等等。因此,所谓不能遗漏情报,遗漏了系统就不可靠,就不能使用,完全是不切实际的。必须接受大海捞针多半捞不着的现实,捞着了是运气,捞不着是常态(人世间有许许多多无可奈何的事儿,大海捞针基本捞不着就是一桩,找对象的小伙子眼见一个中意的姑娘擦肩而过消逝在人海,也是一桩,可人还是要活下去,不是)。


那么大数据系统情报挖掘的真正价值何在呢?那就是揭示冗余度支持的有统计意义的情报及其关联。既然如此,在大数据的尺度下,个体情报的引擎查全率的不足,真地不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间稍微缩小了那么一点点儿,对于统计情报的完备、性质和价值完全不具有负面影响。简单说就是,20% 等价于 10/50,价值的恒等是数学决定的。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不可能对情报价值造成伤害。总之,与其追求引擎的查全率,不如适可而止,把精力放在查准率上,然后着力于大数据的处理。引擎的查全率在真实世界,真地不 makes 甚么 difference。这就是理论与实践的差距,学界强调的查全率是研究的烂路虎,可在业界的现场,这个挑战被另外的 deploy层面的挑战代替了。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-712112.html

上一篇:为什么做大数据的吹鼓手?
下一篇:【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】
收藏 IP: 192.168.0.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-21 22:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部