姬扬的个人博客分享 http://blog.sciencenet.cn/u/jiyang1971

博文

试了试微信小程序“文字扫描识别”

已有 4553 次阅读 2018-10-3 21:35 |个人分类:回忆点滴|系统分类:生活其它

 


 

这几天,在手机上试了试微信小程序“文字扫描识别”,觉得很方便,但还是需要改进。

操作过程很简单:用手机拍照,调用小程序进行识别,把识别结果复制并传送给自己的微信,就可以在电脑上处理了。我总是在有网络的条件下使用的,不知道断网对它有没有影响。

简体字的识别很好,差错率大概是百分之二三吧,予、子、于,乎、平,而、面,这些字容易出错;繁体字的识别效果差一些,差错率大概在百分之十左右,为和局分不清,还有其他很多。我觉得,这个识别程序好像没有上下文的概念,也许是因为数据库还不够大。

我在博客里经常会转载一些文章,大致分为两类:沙里淘金是现代的文章,感动我的文字大多是古代的文章。这些文字基本上都是在网上找到的,只需要排排版就可以了,但是也有例外。

《坤舆万国全图》就是个例外,几万字的内容,大概有一半是我自己敲进去的。有一半的内容,可以在网上找到类似的文字,但是要自己校对,另一半就全靠自己敲了。

最近碰到的几篇文章,也没有网上的版本,我对它们的热情也不像对《坤舆万国全图》那么高,如果不是想试一试手机上的文字扫描程序,我是不会做的。效果嘛,还可以。

以前这种识别程序也有很多种,大概叫作OCR(光学字符识别 Optical Character Recognition),但是识别的差错率都不足以保证重要文本的正确转换,必须采用人工辅助的手段。对于科技文章,OCR的识别率就更低了,所以,几十年前的科技文档电子化工程,大多只是把原来的纸质版变成了扫描式的pdf文件(其实就是类似于照片)。这种文件搜索起来非常不方便,不利于检索过去积累下来的知识。随着文字扫描程序的进步,随着人工智能的发展,现在应该可以做得更好了。即使还需要人工辅助,也可以考虑让更多的人参与进来:比如说,每个大学生毕业之前,必须校对10页科技文章的文字扫描,就算是毕业实习的一部分内容好了。用不了十年的时间,就可以把所有的公共知识都转化为很容易搜索的电子版内容。





https://blog.sciencenet.cn/blog-1319915-1138667.html

上一篇:谈谈《吕思勉自述》
下一篇:随便谈谈今年的诺奖
收藏 IP: 124.193.162.*| 热度|

6 吕喆 陈小润 周健 武夷山 康建 张华容

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 14:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部