||
圕人堂文摘
图谋摘编自:刘圣婴,王丽华,刘炜,刘倩倩.数字人文的研究范式与平台建设[J].图书情报知识,2022,39(01):6-29. 数字人文的研究范式与平台建设_刘圣婴.pdf
全文下载地址:http://dik.whu.edu.cn/jwk3/tsqbzs/CN/article/openArticlePDF.jsp?id=5728
《图书情报知识》2022年第1期刊发刘圣婴、王丽华、刘炜、刘倩倩《数字人文的研究范式与平台建设》。数字人文的兴起正在带来人文研究的范式变革,数字人文平台作为向各学科人文学者提供研究素材的基础设施,同时也是数字化研究方法的承载者,平台建设的推动能够丰富数字人文的方法论体系,促成一种新的数字人文研究范式的确立。文章考察了数字人文的特点,提出了数字人文研究的范式框架;结合目前国内数字人文年会上展示的项目与论文成果,讨论了中文数字人文资源平台的建设问题,着重研究了功能需求和发展趋势;最后,以上海图书馆正在开发中的“历史人文大数据平台”为案例,阐述了这些思考成果的具体应用。具体将数字人文平台分为文献层、数据层、接口层、工具层和展现层等层次结构,使其各司其职且相互依存。针对中文数字人文的方法学特点,归纳了平台的不同类型,并对如何具备系统先进性、资源完整性、功能完备性、工具丰富性与用户友好性提出了设计原则。文章提出了由技术、过程和行为构成的数字人文研究范式,在数字人文平台中将这三个方面与人文资源相结合,成为数字人文研究基础设施的基本组成;对于数字人文平台建设则提出,除了需要关注技术架构之外,还需要将以领域知识为特征的内容架构单独提取进行设计和实现,并探讨了以语义技术(知识图谱)进行实现的基本做法。
人文学科是所有科学之肇始,是人文精神之依托,被称为知识分子的必备和基础素养。无论是古希腊的七艺( 文法、修辞、逻辑、算数、几何、天文、音乐 ),还是春秋的六艺( 诗、书、礼、乐、易、春秋 ),其所创立的知识教育体系在今天多归属于人文学科范畴,致力于培养区别于万物的所谓“人性”。而当今社会建立起与工业文明相匹配的极其复杂又高深的现代教育,看似造就了大量知识丰富的“专家”,但却带来了知识分子整体上的消失,不仅缺乏对人的价值以及人类未来命运的思考者,连培养基本的责任与担当都成了奢望。在这个机器智能和生命编辑的时代,人文主义遭遇越来
越严重的危机,我们比任何时候都更加需要和呼唤世界意义的守护者。在这样的背景下,数字人文诞生了。
数字人文是各门具体人文科学采用数字方法的汇聚和总结,是一种“方法论共同体”(Methodological Commons)。目前这个共同体已开始具备库恩所说的共同的“学科范式”特征,随着专业教育和学科体系的建立,数字人文逐渐从各种方法、技术的大杂烩,开始形成具有一定理论结构和研究规律的独特领域,该领域的研究者正在从对数字人文能不能成为一门“学科”心存疑虑而争论不休,转而开始专注于各类专门问题的探讨和整体共性方法论的总结。当然这与近年来数字人文研究基础设施的不断完善有关,除了大量的数据资源以最新的技术不断赋能研究人员之外,我们还拥有了颇具影响力的协会、学会和专业期刊,定期召开国际或地区性会议,具有稳定的基金支持,尤其是形成了本-硕-博的专业教育体系。目前的薄弱环节是基础设施的建设和提供者与新兴的数字人文研究者之间缺乏沟通对话,导致数据资源相关的平台建设和系统的标准规范尚未建立,正在成形的方法论体系缺乏实践检验,因此未能尽快成熟并得到公认。
数字人文的方法有两类,一是传统方法的计算机实现,例如搜索、分析、比较等,利用计算机只是比传统方法要快很多而已,最著名的数字人文研究案例―罗伯特•布萨神父编制托马斯•阿奎纳全集索引就是这样的例子;二是由计算机技术产生的特殊方法,例如统计、分析、聚类和可视化等,布萨神父最后建立了托马斯•阿奎纳索引服务,就属于对传统人文方法的一种突破。
数字人文平台是为数字人文研究服务的,也是实现数字人文研究范式的重要的基础设施之一。平台建得好不好最终要通过数字人文研究成果来检验。因此在建立之初首先需要了解数字人文研究人员的需求,了解数字人文研究的一般规律,以及方法、过程和行为,否则也无法设计出好的数字人文平台。当然,数字人文平台“兼容”传统的人文研究是一个前提条件,在很大程度上数字典藏系统应该就能满足需求,然后可以进一步升级开发“真正的”数字人文平台,向人文学者全面提供基于数据的研究基础设施服务。
史料乃人文研究之本,而所有人类活动纪录皆可为史料。图书馆等记忆机构自古以来不仅是人类思想纪录的保留地,也同时是人文思想的孵化所。目前中国传统学术研究常用的资源大致有:① 古籍:根据目前对于古籍的定义,不重复的应不超过20万种,版本数不超过50万种,已基本完成数字化扫描,其中四分之一( 约5-6万种 )大致完成了文本化,约不超过100亿字。已实现文本化的古籍有很多失去了版本信息( 或被加工出版机构根据一种或数种所谓“权威版本”进行加工 )。② 民国图书:保守估计不重复约有15万种,已基本完成数字化扫描,文本化数量应在300-400亿字,但大
多分散在各出版机构。③ 现代图书:不重复至少500万种,基本都有数字化版本,但并非文本化,其中一多半以CEBX(Common e-Document of Blending XML,基于混合XML的公共电子文档 )格式存在,总量约上千亿字。④ 近代期刊:至少2万种,约800万页,基本完成数字化扫描,但文本化只有50亿字左右。⑤ 近代报纸:总量约100万拍,基本完成数字化、文本化( 如申报等一些大报 )约30亿字左右。⑥ 现代期刊:近30年的期刊基本都已经文本化,主要为CNKI等数据库商所掌握。⑧现代报纸:近30年经汉字照排的报纸基本都有文本,一些大报( 如人民日报 )也已完成了文本化,但因格式和版权问题,能得到开放应用的很少。⑨ 档案馆藏:经过近十多年来国家的大力投入,数字化已基本完成,而且绝大多数在数字化时已经完成了文本化。⑩ 博物馆( 美术馆 )馆藏:真正的数字化( 保存级 )近年来刚刚开始,许多藏品需要3D建模,随着技术的成熟成本逐渐降低,规模逐渐增大。
近年来各类收藏机构的中国传统学术资源数字化已经全面展开,数据库已成为中国传统学术研究者检索资料的主要途径。但矛盾的是学者们并没有感到查找资料比以往更方便。这主要有如下问题:① 系统较为封闭。就如同古代藏书楼,宝贝秘不示人,是无法得到充分利用的。很多系统甚至不开放元数据,无法让学者查询是否有某些资料。虽然大量的中国传统学术资料都已过了版权保护期,但国内的公藏机构也大都不开放,恐怕被人盗取,还有不少出版机构拿来影印或重新出版,使其又变成“有版权”出版品,依旧在“付费墙”后面,依然没解决开放问题。而中国大陆以外地区的典藏机构近年来逐渐公开了大量资源。② 系统之间互不联通。资料分散在各处,必须分别去查,很多甚至没有上网,寻访依旧不易,找到后经常需要手工抄录,然后再进行对比、分析等工作,有时只查元数据并不能满足需求,系统中缺乏研究所需的关键信息,如版本、格式等。③ 资料准确率低。讹误很多,数字化会放大错误,且缺少修正机制。④ 使用便捷性差。只是解决了“知道”和“得到”问题,后续所有工作都还是手工的,并不能体验到计算机能够提供的更多好处,例如保存、统计分析等。
以中文数字图书馆( 或称为数字典藏 )建设为主的数字人文基础设施建设正方兴未艾,目前几乎所有的人文研究都需要从数据获取和整理开始做起,因此大量的数字人文项目其实还是数字典藏项目,这类项目被David Golumbia称为狭义的数字人文,是最容易获得资助的。
当今时代已不再可能举全国之力穷天下收藏,兴建四库全书那样的项目,开发包罗万象的知识平台,现在甚至连某一学科或主题领域的资源都不可能一网打尽。因此我们在构建数字人文平台或开发人文资料数据库时首先应考虑自身的优势和特点,选取一定的文献类型或学科主题,充分考虑服务对象特点和需求,设定有限目标,并做好长期建设的准备。本文希望着眼于未来互联互通,对构建一个整体化的中文数字人文研究的基础设施提出一些设想。包弼德教授曾在2018年提出过类似的想法,他建议构建一个“中国研究的基础设施网络”,希望通过各国中文资料收藏机构的密切合作,开发一个通用平台,使中文资源能够互联互通,进一步促成共建共享。这是一个非常有远见、有现实意义和可行的建议,但这个平台不必是“一个”平台,而可以是整个中文基础设施共同构成的分布式网络服务,即可以由相关中文资源收藏和研究机构各自建设,但遵循共同制订的技术标准和互操作协议,这样就保证了资源获取和服务的互联互通;同时制订一定的合作机制和业务模式,这样又能够促进互惠互利和可持续发展。因此,本文探讨的平台即是一个在功能上力求完善、能够满足当下需求的独立的数字人文平台,又同时在体系架构上兼顾了基于最新语义互联网技术的互联互通,是一个尚未实现但完全具有可操作性的设计方案)。分系统先进性、资源完整性、功能完备性、用户友好性和工具丰富性等5个方面进行阐述。(略)
上海图书馆正在建设的历史人文大数据平台,就是应用上述理念和技术,依托自身资源,向全社会提供一个先进、开放、全面的数字人文服务平台。打造这个平台主要有三个目的:一是升级原有的数字图书馆系统;二是提供基于“知识”的数字人文服务;三是试验一些互联互通共建共享的新协议与新模式。其实就是作为对前述数字人文发展趋势进行应对的一种尝试。实现这三个目的有两条现实可行的路径:其一,从现有的数字图书馆系统出发,也就是从目前上海图书馆馆藏特色资源出发,升级技术架构和内容架构:技术架构全面微服务化、容器化和平台化,支持外部资源与服务通过各种标准或非标准方式( 推荐RESTful API)接入;内容架构进行“数据化”改造,支持“基于知识的服务”。其二,从数字人文研究者的角度出发,规划所有人文资源的整合方案,从提供资源到提供平台环境( 包括工具 ),努力实现主要数字人文应用场景的“一站式”服务。
数字人文平台建设的愿景是让人文研究不再困难。从雅典学园到文艺复兴,从鲁国杏坛到康梁变法,两千年来人文学者的创造性思考从来都是依靠个体的博览群书与博闻强记,依靠师徒私授或学派论战,思想的诞生、学说的完善,以及对社会实践的影响主要依靠的是个人的能力,人文知识的产生、发展和传播的整个过程是偶然、不清晰和不确定的,每位学者都要从最原始的篇章学起,遍历所有典籍并考察整个源流,穷极一生只能成为专家而无法成就大家,而数字人文正在第一次给人文研究带来革命。针对人文研究的完整过程,数字人文已能够分而治之:首先,使资料查询和获取不再困难,然后使知识存储、传播和利用不再困难;其次,让分析、比较,形成观点不再困难;最后,使结果展示、交流和争鸣不再困难。人文学者不再是单打独斗而是集团作战,无须管中窥豹而是直接综揽全局尽情把握,人文研究的规律与方法将得到更好的揭示,人文成果的发表形式将不限于书刊,人文学说的比较与评价将更方便地在实践中得到检验和反馈,为人文研究提供的服务能力将更快地得到迭代和提高。照此发展下去,那么问题来了:如果数字人文充分采用了人工智能技术,推向极致,可能机器也能自动进行人文研究。此时的人文,还是人文吗?其实数字人文的终极意义还是在于以科技强化人文,而不是将人文变成被动机械的对象,进行去价值化和无意义化。最终的意义呈现,其主体是人类自身。当所有的人文都是数字人文时,“数字”与“人文”才能够真正合为一体,那时“数字”的工具性特征便不再重要,人文研究此时便能回归本源,真正彰显人类的价值和生命的意义。这也是我们要用尽所有先进技术,推进数字人文平台的开发与建设的根本原因所在。
图谋简评:《图书情报知识》2022年全新改版,该刊编辑部在第1期卷首语《风格与承认:流量之外的思考》中宣示“一个学刊应该去提倡一个学派、一种风格,组建一个知识共同体”,不满足于“发表文章的地方,一个交流的平台”。这一期,有不少变革,封面、封底及版式等是外形方面,内容方面也有变革,组织策划了《思想的越野——2021年度图书情报与档案管理阅读书单》,邀请学科领域的院长和系主任开列了一份书单(长达13页)。阅读书单这个栏目,图谋觉得挺好。两方面原因:一是书评本来就是我们图情领域的阵地;二是该栏目可以拉进与读者的距离。种种原因,当前学术期刊的读者面越来越窄。我们图情领域的传统是理论研究与应用研究并重,理论研究大牛未长成之前实际也是先从应用研究入手的(由实践产生理论)。最让我感受的惊喜与意外的是,该刊特约稿为名副其实的“大作”:① 篇幅大。全文长达24页,信息量很大,且语言优美。② 来头大。系国家社科基金重大项目 “ 文化遗产智慧数据资源建设与服务研究 ”(21&ZD334)的研究成果之一。③ 研究团队阵式大。“两大阵营”(来自图书馆一线实际工作单位的、来自教学科研单位的)的科研合作,有利于形成更具生命力的科研成果,互利互惠。该文作者既有一线实际工作单位(高校图书馆馆、公共图书馆馆),又有教学科研单位。作者队伍既有资深研究者,亦有初出茅庐者。数字人文研究是非常热门的研究领域,笔者粗略检索了中国知网,2012年至今,北大版中文核心期刊已发表论文463篇(其中2022年已发表27篇)。《数字人文的研究范式与平台建设》或许会是继往开来、承前启后的“大作”或“经典学术”。期待所做摘编有助于该成果的科学普及。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 22:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社