zbln的个人博客分享 http://blog.sciencenet.cn/u/zbln

博文

中文全文文献数字化OCR的准确性亟待提高!

已有 238 次阅读 2024-12-24 13:16 |个人分类:科学评论|系统分类:人文社科

        因研究需要,近年来笔者经常使用多个中文文献全文数据库。但是几乎每次都会发现,命中的结果是因为OCR错误导致的伪命中,这种情况在古籍与繁体字文献中尤甚。几乎每次,笔者都会将发现的OCR错误提交纠错,但如果一次检索中得到太多的OCR错误,笔者也就无法一个个提交纠错了。

        既然有很多因OCR错误造成的伪命中,反过来,应该也有很多本该存在的真命中,因OCR错误而未被检索到,这就是一个大问题了!即从最初被检索到的数据开始,就具有了致命缺陷。加之大陆绝大多数文献数据库都是非免费的,这就排除了通过大量人工查询使用,来纠错的可能。

        也不知道被整天炒作鼓吹的“大数据”“大模型”“深度学习神经网络”等等先进的人工智能技术,为什么不先将这个最基础的文献OCR问题解决一下。这个问题不解决,喂给“大模型”等人工智能的数据,都是些有不少错误的,带有基础缺陷的数据,人工智能通过这些数据,所得到的结论的科学性,则很难令人信服!

        附上刚刚进行的一则查询。

微信截图_20241224095829.png



https://blog.sciencenet.cn/blog-685079-1465794.html

上一篇:全民科学素养与语文素养建设,任重而道远!
收藏 IP: 117.174.11.*| 热度|

3 宁利中 谢钢 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-5 10:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部