||
因研究需要,近年来笔者经常使用多个中文文献全文数据库。但是几乎每次都会发现,命中的结果是因为OCR错误导致的伪命中,这种情况在古籍与繁体字文献中尤甚。几乎每次,笔者都会将发现的OCR错误提交纠错,但如果一次检索中得到太多的OCR错误,笔者也就无法一个个提交纠错了。
既然有很多因OCR错误造成的伪命中,反过来,应该也有很多本该存在的真命中,因OCR错误而未被检索到,这就是一个大问题了!即从最初被检索到的数据开始,就具有了致命缺陷。加之大陆绝大多数文献数据库都是非免费的,这就排除了通过大量人工查询使用,来纠错的可能。
也不知道被整天炒作鼓吹的“大数据”“大模型”“深度学习神经网络”等等先进的人工智能技术,为什么不先将这个最基础的文献OCR问题解决一下。这个问题不解决,喂给“大模型”等人工智能的数据,都是些有不少错误的,带有基础缺陷的数据,人工智能通过这些数据,所得到的结论的科学性,则很难令人信服!
附上刚刚进行的一则查询。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 10:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社