王小平的博客分享 http://blog.sciencenet.cn/u/SciApple2014 关注计算机软件、人工智能和社会计算领域的创新,关注科学人文和社会文化的传播

博文

CMU的Luis von Ahn提出的“人本计算”(2008年)

已有 2894 次阅读 2014-1-24 17:34 |个人分类:社会计算|系统分类:科研笔记

CAPTCHA“Completely Automated Public Turing test to tell Computers and Human Apart”)这个称谓最早是在2000年由CMULuis von Ahn,Manuel Blum等人提出,中文直译为全自动区分计算机和人类的图灵测试,俗称验证码,现在是登陆注册时的必备步骤。

最初的CAPTCHA的图片由机器生成,控制程序知道正确答案,其发挥的功效纯粹就是为了防止机器自动注册;而reCAPTCHA则赋予了这个过程更加深远的意义,除了能更好区分人和机器的作用,还能顺便为文献数字化做出贡献,思路很简单:

将计算机出现之前大量的书籍、报刊等书面资料电子化是一项很有意义且繁重的工作,OCR是这方面较为有效的自动化技术,但有些文献由于字迹模糊、褪色、污损等原因,无法被OCR识别;同时,这些OCR无法识别的内容由人工辨认却相对较为容易。reCAPTCHA系统中,验证码有两个单词组成,一个叫“control word”(控制系统知道答案),另一个叫unknow word”(来源于OCR无法识别的部分,控制系统不知道答案), 因此,对于用户的输入,只能验证“control word“部分,如果这部分是对的,就认为”unknown word”部分用户也提供了可信的答案。为了提高可信程度,同一个的”unknown word”会被分配给多个用户,综合这些用户的回答及其他信息,来判定这个“unknown word”是否被正确识别。开发reCAPTCHA系统,以服务形式免费提供给外部,从而加速文献数字化的工作。



https://blog.sciencenet.cn/blog-1225851-761920.html

上一篇:Mechanical Turk
下一篇:MobileWork
收藏 IP: 114.91.175.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 20:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部