随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

大模型与传统文科的结合之道——加强高质量结构化人文知识库的建设

已有 553 次阅读 2024-12-8 22:16 |个人分类:Dighital Humanity|系统分类:论文交流

    数字技术和智能技术的出现,给传统人文学科带来了新的方法和技术,产生出以数字人文为代表的新兴交叉学科,使人文材料的数字化、计量化、可视化研究取得了诸多突破性进展。数字人文的交叉,大体指的是传统文科与计算机科学的交叉,计算机赋予人文学科以知识的结构化、数据的海量化和庞大的计算能力。对于人文学科来说,最为重要的是知识的结构化。过去,我们对于这个问题认识不足,认为只要材料进入计算机,将古籍扫描成电子书,文物进行三维扫描,就算是完成了数字化工作。其实,二维或三维扫描仅仅完成了机器数据采集,这种机采数据还无法真正触及人文知识。人文知识涉及哲学、历史、文学、艺术等众多领域,其知识呈现出复杂的概念体系、事件关系和文化内涵,往往需要学者数年甚至数十年的积累。

  所谓知识的结构化,不是存入计算机就算结构化,而是要看数据是否转化为概念节点以及概念节点之间是否建立了清晰有效的关系。概念节点和关系的定义需要非常清晰、明确,概念可以是人物、器物、事件、时间、地点等要素,关系可以包括人物关系、器物属性、人地关系等。概念节点和关系可以构成线性结构、层次结构、网络结构等不同形态。只有形成高度结构化的人文知识库,才能进行高效的检索、统计和推理。笔者拟以关于中国古代的多个大型知识库为例,介绍高质量结构化知识库的建设方法与意义。

  首要的问题是人文知识如何结构化。以哈佛大学主持建设的中国历代人物传记资料库CBDB为例,这个大型知识库,历经20多年的建设,从成千上万本史书、工具书中收集整理出50多万人物的生卒年、任职、亲属关系、社会关系、游历地点等诸多属性信息。如果按照传统方法给每个人写小传,需要耗费专家大量的心血在材料的编排与遣词造句上,适合定性研究。而CBDB则采用结构化数据库,利用三元组使人物的各种属性建立起丰富关系,“<人物,出生年,洪武三年>,<洪武三年,公元转换,1370>,<人物1,父子关系,人物2>”等,在此基础上可以做各种定量的统计分析。例如,这50多万人,其中有多少男性、女性;平均寿命是多少;平均婚姻年龄多少;古代哪些地方盛产进士;进士一般都做什么官;苏轼的朋友圈有多大;苏轼去过哪些地方等。人文知识结构化的价值不止于建设完成后能够服务于统计,还在于结构化建设过程之中可以发现大量数据错误、冲突、模糊、缺损等问题,有助于发现新问题。例如,错别字、生卒年不详、卒年早于生年、兄弟关系互有冲突等。

  其次,在结构化的知识库上可以做推理。例如,根据50多万人的社会关系,可以找出其中任意两个人之间最近的关系、多样的关系;可以根据某一个人物推出其父辈或子孙的情况。当然,这种推理还是初步的、浅层的。如果想做深入推理,需要做深度的结构化改造。

  然而,与机采数据不同,结构化的知识库最大的难题在于概念和关系的定义。结构化的深度在于人文知识的厚度。举例来说,对于“家族”这个概念,除了族谱类有着详细梳理,在普通的人物记载中,往往更突出的是个人或者群体,如人物小传或者进士群体、地方官。在CBDB的原始数据中是没有“家族”定义的,有的是四百多种表示亲属关系的词,比如“父亲”“长子”“幼子”等,难以作为构建家族的直接材料。但是,可以通过系统地梳理这些亲属词,以父亲、母亲、夫妻三种关系和人物性别,建立全新的亲属三元组<人物1,亲属关系,人物2>,<人物,性别,男>,从而重新建立人物之间的亲属关系。在此基础上,借助树形结构的计算机算法,就可以得到父系家族的层级结构。有了家族,就可以统计出古代大家族的规模、持续的世代,还可以计算出不同家族之间的通婚情况,从而分析出大家族之间的对立与合作关系。

  对古代地名信息的结构化上,存在着类似问题。很多地名的信息是模糊的,难以确定。按传统的地名考证法,往往只要写明在今天某地的相对位置即可。但是历史地理研究已经采用了现代GIS方法,力图将古代地名标注到现代的地球坐标上。这样的做法不仅有利于地图的可视化,基于GIS信息还可以更好地做出统计。例如,古代城池的地域分布是靠近河流还是山谷,以及古代驿站的选址规律是什么。如果与战争信息库相联系,可以统计古代战争多发生在什么特点的地区;如果与人物数据库联系,可以得到古人迁徙的路径等。

  对古代时间信息的结构化上,也存在着类似问题。对于古代的纪年,一般会转换为公元纪年,表面上看这只是一个转换过程,实则是以公元纪年作为底层时间表示。在此基础上,才好与历史上诸多不同的历法形成严整的转换关系,才能够形成统一的时间标尺,统计出同一时间段不同地域发生的事件。

  目前,结构化工作最大的困难是概念和关系的确定,这恰恰需要人文学者来解决,而且只有人文学者才能解决。计算机背景的学者往往不具备丰厚的文史知识,无法做出定性判断。例如,“官职”“机构”“事件”等概念,都存在着界定问题,亟待解决。众所周知,历代的官制是有差异的、不断变化的。在构建官职知识库的时候,能否建立起一套合适的概念体系和关系三元组,更好地表示不同官职之间的关系?例如,“刺史”和“巡抚”的职权关系,“兵部”和“军机处”之间的职权关系。“事件”是目前最难解决的概念,因为一个大事件可以包含若干小事件,小事件还可以拆分为若干更小的事件。每个事件的参与者、时间等要素也不尽相同。相同的问题还有“战争”“夺位”等事件的结构化。这些问题需要人文学者与计算机学者共同协作解决。

  目前,虽然以ChatGPT为代表的大模型可以做诸多问答与推理,但是在文史哲领域的表现一般。究其原因,一方面是古籍数据与文史知识的严重缺失,另一方面则是源于语言模型而非逻辑推理的精确性差。大模型依赖的不只是大算力和数学模型,更需要高质量的、海量的多语言数据。无论是英语、汉语还是其他语言的高质量古代知识库依然非常稀缺,正在建设中的知识库也存在着规模小、知识深度不足、研究力量分散、经费不足等问题。

  因此,我们应当在关注大模型发展的同时,更加注重高质量结构化人文知识库的建设,通过结构化来保证统计和推理的深度,发现新的文史问题,在更高的时空维度上做出统计推断。除了本文介绍的人物、时间、地点、职官等知识库外,将来可以拓展到分领域的断代知识库,进而不断整合,最终形成国际化、综合型、多语言、高质量、结构化的人文知识平台,让人文学科的研究迈上新平台,做出更多宏观与微观结合、定性与定量结合的研究。这种知识库在人文学科的教学、跨文化交流、对外汉语教学、文博科普等领域都有着广泛的应用场景。

原文链接:加强高质量结构化人文知识库的建设-中国社会科学网 (转载请注明出处)

2024-10-14  来源:中国社会科学网-中国社会科学报



https://blog.sciencenet.cn/blog-39714-1463458.html

上一篇:大数据大模型之势——参加内蒙古大学语料库论坛有感
收藏 IP: 222.192.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 11:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部