随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

数字人文让古籍“活起来”

已有 2012 次阅读 2023-2-2 11:33 |个人分类:Dighital Humanity|系统分类:观点评述

在数字化的浪潮下,如何利用新技术推动古籍工作,使具有悠久历史的古籍焕发活力,从而弘扬民族精神、增强国家文化软实力,这是学界和业界需要共同探讨的问题。国内数字人文的研究肇始于21世纪初,经过十余年的发展,目前已经形成了一些具有特色的跨学科研究方法,如知识库构建、文本挖掘、网络分析、可视化呈现等。在古籍工作方面,“数字人文”不仅仅意味着实现古籍文本的数字化转换,更是指利用新科技将古籍转换为结构化知识库,进而实现古籍内容的深度分析与知识服务。可以说,数字人文为古籍工作带来诸多新的动力,主要体现在以下三个方面。

第一,以人工智能技术,加快古籍图文数据库建设。图文数据库的建设可以直接推进古籍的再生性保护和古籍整理工作。近年来,随着数字技术与人工智能的发展,古籍光学字符识别技术(OCR)的识别正确率大幅提高,达到了95%以上;自动句读、自动标点、专名(人名、地名)识别等技术也都可以达到90%~95%的正确率,在机器自动处理之后,只要辅以人工校正,效率较手动录入就能实现巨大飞跃。古联公司建设了规模达20多亿字的中华经典古籍库,还将人工智能技术融入古籍整理的全新智能平台——“籍合网”。除了上述技术外,该平台还把版本异文自动发现、征引古文、繁简转换等技术集于一身,大大提高了古籍整理的效率。不过,古籍整理仍然面临一些技术难题,例如对于大量手写体的文字和版式复杂的文献,机器难以自动识别,此外还有异体字、避讳字如何保存和显示等问题。可以通过人工智能来开发手写体字符识别、复杂版式识别、异体字认同等功能,更好地推动古籍数字化与整理出版工作。

第二,以知识图谱技术,大力推进古籍知识库建设。数字人文对于古籍保护与研究最重要的意义在于它能够实现“古籍知识库”的搭建。古籍知识库脱胎于传统的各种辞书、词典,采用了知识图谱技术,是信息时代知识电子化表示的新形式。利用古籍知识库可以方便地查询古代的各种知识要素,在历史、文学、文化研究中作用巨大。例如,哈佛大学与北京大学等高校联合构建的中国历代人物传记资料库(CBDB),包含了四十多万名历史人物的生平、社交关系等信息;与复旦大学等单位联合开发的中国历史地理信息系统(CHGIS),包含了各个时期的历史电子地图。然而,这些知识库主要通过纯人工的方式构建,耗时耗力。知识工程与知识图谱界则主要依靠自然语言处理技术分析文本的内容,获取文本中的实体要素,如时间、地点、人物、事件等,然后获取这些要素之间的关系,辅之以人工校正,形成高度组织化的知识图谱。目前,古籍在实体要素的自动识别方面已经达到了90%以上的正确率,亟待发展要素关系抽取方面的技术。可以预期,随着技术的不断进步,古籍知识库的建设将不断扩大和深化。

第三,融合多种技术,赋予古籍新的数字生命。古籍知识库的利用也需要数字人文的量化分析和可视化技术,结合传统的人文学科问题展开研究。例如,古代人物的家族分析、学派分析等团体分析,战争、灾害、中外交流、人口迁徙等大事件分析。北京大学就对 240 万字的《宋元学案》进行了文本处理及分析,将文本中的人物、地点、时间、著作和职官信息提取出来,构建了可视化知识图谱,然后利用复杂网络和可视化方法,分析了宋元时期的士人群体特征与思想变化。数字人文技术还可以用来科普,让古籍知识服务于大众。例如,清华大学利用中国历代人物传记资料库(CBDB),采用算法及编程绘制了家族谱系树,通过比对家族树,挖掘出了比文献记载更清晰的历史人物家族架构;上海博物馆依托丰富的馆藏和雄厚的研究基础,构建了“董其昌数字人文”数据库,在可以触摸的超大屏幕墙上与游客互动,立体而生动地展现董其昌的生平、游历轨迹、关系网等信息。随着数字人文研究在古籍领域的不断深入,以往在文本中书写的显性和隐性信息都将被挖掘出来,并以多媒体的形式呈现,既便于研究者梳理信息,又帮助普通大众打破古代文字难读、难懂的困境,提高其对古籍和古代文化的兴趣。

古籍的数字人文研究能够极大促进我国古籍保护与研究利用工作。未来,古籍存在的形态一定不止于纸本或简单的电子本读物,融合了多种功能的传统古籍知识库将成为现代人接触古籍和古代文化的重要媒介。这些工作有赖于各类古籍知识数据库的开放获取和项目之间的资源整合来推进,也需要学界与业界良性互动,形成新的生态。

(本文发表于《社会科学报》2022-5-26)



https://blog.sciencenet.cn/blog-39714-1374515.html

上一篇:运用科技手段,提升汉语的世界科技文化承载力
下一篇:古汉语拉丁语同场竞技,国际古文自动分析进展令人振奋
收藏 IP: 180.110.59.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-21 14:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部