|||
[6]白图格吉扎布
有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。
博主回复(2013-7-29 00:35):不是说“孤本”就没有价值,大海里面的那颗特定的针也许真地价值连城。但是,不能指靠自然语言系统能够捞到那针,事实上,不能指靠任何系统有这种能力,原因在文章中也提到了:对于孤本的无能,不仅仅是技术难关,不仅仅是引擎查全率的缺陷,即便上帝允许100%查全率自然语言挖掘引擎的存在,一个“孤本”也完全可能由于引擎以外的众多原因而够不着它:server down,database problem,经济羁绊而未进入index,存有孤本的那台机器死机了,等等等等。因此,所谓不能遗漏情报,遗漏了系统就不可靠,就不能使用,完全是不切实际的。必须接受大海捞针多半捞不着的现实,捞着了是运气,捞不着是常态(人世间有许许多多无可奈何的事儿,大海捞针基本捞不着就是一桩,找对象的小伙子眼见一个中意的姑娘擦肩而过消逝在人海,也是一桩,可人还是要活下去,不是)。
那么大数据系统情报挖掘的真正价值何在呢?那就是揭示冗余度支持的有统计意义的情报及其关联。既然如此,在大数据的尺度下,个体情报的引擎查全率的不足,真地不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间稍微缩小了那么一点点儿,对于统计情报的完备、性质和价值完全不具有负面影响。简单说就是,20% 等价于 10/50,价值的恒等是数学决定的。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不可能对情报价值造成伤害。总之,与其追求引擎的查全率,不如适可而止,把精力放在查准率上,然后着力于大数据的处理。引擎的查全率在真实世界,真地不 makes 甚么 difference。这就是理论与实践的差距,学界强调的查全率是研究的烂路虎,可在业界的现场,这个挑战被另外的 deploy层面的挑战代替了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社