立委围脖:对于用户来说,抓住老鼠就是好猫
已有 4919 次阅读
2011-6-24 18:16
|个人分类:立委科普|系统分类:教学心得|
学界, 猫论, 覆盖面, recall, 业界
这是从镜子的话想到的。
Re: 对乘客而言,瞬间跑多少速度无关紧要。要的是平均速度。
Quote mirror
因为距离是不变的,花多少时间才能到达目的地是个关心的问题。
在我们这个信息抽取/搜索这个行当里,学界与业界对于覆盖面(recall)的定义完全不同。学界的定义是以一个信息的出现次数 (mention level) 做分母,测量系统抓住了多少。业界从用户使用信息的需求出发,分母是不同信息的个数(concept level)。一个学界标准覆盖面很差的系统,可以是业界覆盖面很好的优秀系统。如果一个信息以10种不同说法被媒体各重复了100次,总计1000次 mentions,一个系统只要抓住其中一个说法的一次mention,就这个信息而言,对于用户来说,就是100%,而按照学界覆盖面定义则只有 1/1000,几乎是零 。显然,对于业界,覆盖面的提升不仅是加强系统本身的深度,更重要的是增加海量数据处理能力。数据量增加了,信息冗余度必然增加,抓住耗子就容易了。
以上是把情形推向极端来说,但是不可否认的是,学界测量系统的指标是脱离实际的,其目的是鼓励“学问”向纵深发展,不为眼前的软硬件条件所羁绊。学界竞争出来的系统可以是不计成本的。业界则不同,深度与广度同等重要,深度广度的综合平衡,以邓小平同志的猫论为准绳:抓住老鼠就是好猫。
相关博文:
https://blog.sciencenet.cn/blog-362400-458870.html
上一篇:
立委围脖:乔布斯说,there is no sex in it.下一篇:
暴雨成灾的问题所在