||
CAPTCHA(“Completely Automated Public Turing test to tell Computers and Human Apart”)这个称谓最早是在2000年由CMU的Luis von Ahn,Manuel Blum等人提出,中文直译为“全自动区分计算机和人类的图灵测试”,俗称“验证码”,现在是登陆注册时的必备步骤。
最初的CAPTCHA的图片由机器生成,控制程序知道正确答案,其发挥的功效纯粹就是为了防止机器自动注册;而reCAPTCHA则赋予了这个过程更加深远的意义,除了能更好区分人和机器的作用,还能“顺便”为文献数字化做出贡献,思路很简单:
将计算机出现之前大量的书籍、报刊等书面资料电子化是一项很有意义且繁重的工作,OCR是这方面较为有效的自动化技术,但有些文献由于字迹模糊、褪色、污损等原因,无法被OCR识别;同时,这些OCR无法识别的内容由人工辨认却相对较为容易。reCAPTCHA系统中,验证码有两个单词组成,一个叫“control word”(控制系统知道答案),另一个叫”unknow word”(来源于OCR无法识别的部分,控制系统不知道答案), 因此,对于用户的输入,只能验证“control word“部分,如果这部分是对的,就认为”unknown word”部分用户也提供了可信的答案。为了提高可信程度,同一个的”unknown word”会被分配给多个用户,综合这些用户的回答及其他信息,来判定这个“unknown word”是否被正确识别。开发的reCAPTCHA系统,以服务形式免费提供给外部,从而加速文献数字化的工作。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 04:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社