随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

悼念李学勤先生:中国学术界的重大损失,数字人文应砥砺前行

已有 3337 次阅读 2019-2-24 22:28 |个人分类:Computational Linguistics|系统分类:观点评述

if9s-htknpmi3250490.jpg


       一代国学大师李学勤先生逝世,是中国学术界的重大损失。这种损失是无法弥补的,无论李先生生前出版了多少著述,发表了多少讲话,他留在脑海中的国学知识、宝贵的经验和深厚的底蕴,一去不复返。政府、学界、知识界、社会人士纷纷悼念这位大师的逝去,感念他所做出的巨大贡献。

       那么数字人文技术,能不能让这种生老病死带给国学的损失降到最低呢?无独有偶,去年巴西博物馆的大火,也引起了巨大的讨论,我们该如何保存珍贵的人类精神文化遗产?如何避免古代遗存在物理上的消失带来的巨大损失?

       从目前的技术来看,只有数字人文技术能够在最大程度上做到这一点。其实数字人文技术就是使用计算机的数据库技术,将古代文献和文化遗存进行多媒体的保存。

       (1)可存储的信息种类包括文字、图片、视频、实物3D建模、3D场景建模、历时纪年时间轴、丰富的著录信息、GIS地理信息等等。这些对于文献和实物遗存来说,基本够用。目前的困难在于经验和判断的存储。像李学勤先生这样的大师,其著述大都已经电子化,但其方法、思想、经验该如何表示呢?这个问题不只是数字人文的难题,也是情报科学的难题、甚至谷歌百度这样的公司也急于解决这样的问题。虽然这个问题暂时难以解决,但对于文献内容深入的语义标注与分析工作已经展开,远远超过了全文检索的简单功能,能够实现基本要素的跨时代、跨语言检索,只是目前国内的国学文献所做甚少。我们南京师范大学数字人文小组,已经致力于将古代的文献进行多媒体化存储。《左传》、《诗经》、《史记》的一期数据库都接近基本完成。将古书中的词语切分出来,标注《诗经》中的韵脚、专有名词的古今对译和类别属性,《左传》和《史记》中的人物ID、地点ID、地点的当代坐标等等。已经建立了数千个人物、地点的数据库,让先贤们考证的专名信息,能够在一个数据库平台上整合起来,并进行统计分析和可视化。这一点其实很简单,就是利用计算机的存储来扩展人脑的存储限制,让古代遗存得到充足信息的保存。

QQ图片20190224224717.png



       (2)数字人文借助大数据分析和人工智能技术,能够扩展人脑分析的能力与效率。解读甲骨文、金文,往往需要深厚的古史功底和古文字功底,只有极少数资深的顶级专家才能为之。培养一个这样的人才,耗钱多少在其次,而是要掌握大量的古文字和文献材料,没有数十年的积累难以成功。而借助人工智能技术,很可能打破这一僵局。目前繁简体文字识别技术已经取得了长足进步,进入了产品化。如果能够将大量的古文字图片整理进数据库,用已解读的部分作为训练数据,形成可用的智能模型,就可以用来解读未破解的那些文字。今天的图片识别、去噪、提高分辨率甚至部分恢复都已经取得了许多研究成果,这对于古文字乃至图片的电子档修复都具有很高价值。我们数字人文小组已经建设了数十万古汉语词条的历时发展信息,并开发了自动映射到英语WordNet上的技术,将来可以和WordNet所连接的世界上数十种语言进行横向对比,可以看到世界多种语言词语的借用、融合的历史过程。

       其次,古代文献浩如烟海,一个人一辈子也读不完,而对大数据方法来说,分析几亿本图书是非常轻松的一件事。不同文献之间的自动对比、自动归类,也许可以发现很多以前发现不了的信息。

      再次,海量古代文献的自动断句、标点、词语识别、专名识别、古今翻译、文字与图片等多媒体信息对应等工作,也完全可以而且只能依靠计算机帮助人来完成。目前,我们数字人文小组已经成功开发了古文自动断句、标点、词语和专名识别系统。古今翻译、繁简转换也已经有很多单位已经研制过。借助人工智能中的语言分析技术,我们今后还可以做到古文和外语的翻译,古文大事件的自动发现,人物交友信息,人物旅行轨迹等等,形成世界历史数字人文库。

 

       计算机、手机早已走进千家万户,超算和AI技术日新月异,国学的研究会乘着这些技术不断发展。数字人文要做的事情很多,不只是记录古史,还有当下,还有人文计算,让历史遗存与国学研究绽放光芒!


       谨以此文悼念李学勤先生!愿逝者安息!




https://blog.sciencenet.cn/blog-39714-1163998.html

上一篇:探索新闻聚合的可视化新模式
下一篇:致小米华为和联想——新型健康笔记本设计方案
收藏 IP: 223.65.8.*| 热度|

4 郑永军 范振英 史晓雷 liyou1983

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 06:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部