||
这几天,在手机上试了试微信小程序“文字扫描识别”,觉得很方便,但还是需要改进。
操作过程很简单:用手机拍照,调用小程序进行识别,把识别结果复制并传送给自己的微信,就可以在电脑上处理了。我总是在有网络的条件下使用的,不知道断网对它有没有影响。
简体字的识别很好,差错率大概是百分之二三吧,予、子、于,乎、平,而、面,这些字容易出错;繁体字的识别效果差一些,差错率大概在百分之十左右,为和局分不清,还有其他很多。我觉得,这个识别程序好像没有上下文的概念,也许是因为数据库还不够大。
我在博客里经常会转载一些文章,大致分为两类:沙里淘金是现代的文章,感动我的文字大多是古代的文章。这些文字基本上都是在网上找到的,只需要排排版就可以了,但是也有例外。
《坤舆万国全图》就是个例外,几万字的内容,大概有一半是我自己敲进去的。有一半的内容,可以在网上找到类似的文字,但是要自己校对,另一半就全靠自己敲了。
最近碰到的几篇文章,也没有网上的版本,我对它们的热情也不像对《坤舆万国全图》那么高,如果不是想试一试手机上的文字扫描程序,我是不会做的。效果嘛,还可以。
以前这种识别程序也有很多种,大概叫作OCR(光学字符识别 Optical Character Recognition),但是识别的差错率都不足以保证重要文本的正确转换,必须采用人工辅助的手段。对于科技文章,OCR的识别率就更低了,所以,几十年前的科技文档电子化工程,大多只是把原来的纸质版变成了扫描式的pdf文件(其实就是类似于照片)。这种文件搜索起来非常不方便,不利于检索过去积累下来的知识。随着文字扫描程序的进步,随着人工智能的发展,现在应该可以做得更好了。即使还需要人工辅助,也可以考虑让更多的人参与进来:比如说,每个大学生毕业之前,必须校对10页科技文章的文字扫描,就算是毕业实习的一部分内容好了。用不了十年的时间,就可以把所有的公共知识都转化为很容易搜索的电子版内容。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社