|||
最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。
路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。
然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。
《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。
Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在www.gwap.com上可以体验获得(Game With A Purpose)。
基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。
Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如“摇滚”“迈克尔杰克逊”“颤栗”……这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式:
Output-agreement games.
Inversion-problem games.
Input-agreement games.
这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。
当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读……我们可能都在不知不觉中,贡献了自己的力量。
附:
对我们的启示:
1、
2、
3、
4、
转载自(http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-29 13:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社