||
圕人堂文摘
图谋摘编自:刘炜,林海青,夏翠娟.数字人文研究的图书馆学方法:书目控制与文献循证[J].大学图书馆学报,2018,36(05):116-123.
《大学图书馆学报》2018年第5期刊发了刘炜、林海青、夏翠娟《数字人文研究的图书馆学方法:书目控制与文献循证》,从引介数字人文的方法论基础和主要支撑技术入手,重点讨论了图书馆传统文献学中书目控制和文献循证两种方法能够对数字人文研究带来的巨大作用,这两大方法提供了数字人文的两大基础——数据与方法——的最基本的支持,并对未来图书馆在人文研究中的服务进行了展望。
传统人文的研究成果主要以文献的方式存在并提供交流,文献中所记载的大量内容,如人物、史实、年代、名物、典制、天文、地理、历算、乐律等,涉及自然与社会、时间与空间等各个方面,从传统学术的角度来看,都属于“文献学”范畴,涉及目录、版本、校勘、辑佚、辨伪、文字、音韵、训诂、考据、义理等多方面的学问,这些学问有许多边界模糊和因人而异的地方,但可以从文献形式和文献内容两个方向来把握:目录学和版本学着重从文献形式方面厘清脉络;而校勘、辑佚、训诂、义理等则是提供内容方面考辨,从方法学角度前者可称为“书目控制”,后者则以“文献循证”概括。从现代学术角度看,这些大都被归入“图书馆学”范畴,因此本文将由通过文献控和引证发展而来的方法称为“图书馆学方法”。对现代人文研究来说,结合数字技术,可建立书目控制和文献循证的各类“知识库”,“反哺”传统学术,有望构建起具有中国特色的数字人文方法工具体系。
(1)书目控制
书目控制是通过对各种目录、索引、摘要等二次文献的编制和利用,全面充分地了解和掌握某一主题领域或特定类型的文献,并掌握其分布和发展规律的一种学术活动。
书目控制是20世纪40年代美国芝加哥大学图书馆学教授谢拉等提出的概念,借用了美国科学家维纳的控制论思想。1971年德 国的卡尔特瓦瑟总结了世界书目控制实践,把对文献的控制推广到世界范围。1980年汉斯·H·威尔斯在《书目控制论:文献检索的理论》一文中,再一次比较系统地论述了控制论与书目控制、书目系统的调节与控制、文献鉴别等问题。书目控制在中国古代主要体现在目录的编撰和实践中,一直都有类似的提法和实践,如宋郑樵有云:“学术之苟且,由源流之不分;书籍之散亡,由编次之无纪”(《通志·总序》),又说:“类例既分,学术自明,以其先后本末俱在”(《通 志 · 校 雠略》)。清代学者王鸣盛说:“目录之学,学中第一紧要事,必从此问途,方能得其门而入 (《十七史商榷》)。章学 诚也认为目录可以“即类求书、因书究学”(《校雠通义》)。
网络时代的书目控制是在充分占有某一领域的事实、数据和文献的基础上,按需求进行描述和组织,并监控其发展变化。具 体方法是对于每一项有意义的知识单元都需要赋予独立的网络ID 标识并以标准的方式(RDF)进行描述,所有数字对象(包括由简单数字对象构成的复杂对象)均按照领域规范(即所谓模式scheme)进行代码化,所有描述和组织规范即构成网络知识组织系统,这就是网络时代的书目控制,目前已有以知识本体和关联数据为代表的成熟的语义万维网技术提 供解决方案。网 络时代的书目控制所控制的对象更加广泛,不仅包括二次文献,也包括原始对象的数字化替代物,即所有有意义的“数据”,但“控制方式”不一定是占有,分布式环境下掌握数字对象的线索,或取得访问权也是一种控制。
书目控制的范围、粒度、程度根据研究领域和需求的不同而有所不同,书目控制的主要目的是发展能够掌握与控制文献的各种手段,技术的进步可以带来更多、更广泛的控制,从而更加有助于开展基于数据的研究。
(2)文献循证
循证研究即“基于证据的研究”,相对于基于信念(常常是偏见)、基于经验(常常不可靠)、基于伦理(常常不科学)而言,基于证据是指任何结论都需要从客观证据中得出,是科学研究的基本要求。当证据主要由事实、科研结论或数据组成的时候,由于这些材料基本都是文献形式,可称之为“基于文献”的循证研究,即文献循证。
循证研究较为成熟的领域是“循证医学”,已形成一套严格完整的原则、策略和过程方法。医疗决策通常取决于患者症状、医生经验和已有的研究结论,循证医学发展了一整套方法来保证决策的最优,主要解决医疗实践中的主观性带来的问题,剔除临床实践中的主观成分。
人文社会科学很早就开始应用循证方法,也已成为一个普遍趋势。当然人文研究无法完全排除主观因素,如个人信念或价值观的影响,但为了保证客观性和科学性,应将人为因素降低到最低程度,通过采用一定的方法论来给予保障。循证研究所制定的原则、流程和方法就是这样一种基础的保障。
文献循证主要借助各种形式的文献中所包含的事实,对研究的问题形成一定的证据链,在一系列因果关系中寻找可靠结论的最佳实践。传统的版本、校勘、考据、辑佚等都有大量的循证实践,尤其是辨伪,总结了各类行之有效的循证方法,虽然从现代科学的角度这些“循证”方法还不是很系统很完备,但至少“基于证据”和符合逻辑这两方面是一致的,这是我们可以利用信息技术加以提炼和发展的。
在文献循证中有相互矛盾或不完整的资讯时,以一种切实存在的、可以计量的或确定的资料作为论证依据。这就是循证。事实是循证研究最重要的基础,在建立知识库的过程中需要把大量的事实进行结构化并存储起来,目前RDF技术就支持这样一种海量陈述的集合,能够进行一致性检验和推理,一定的推理能力是构成“证据链”的基础,也是文献循证方法得以实现的基本技术。与此同时还有一类技术非常重要,即真伪和可信度判别技术,需要有一定的方法对文献中记载的数据内容建立可信度指标,因为虽然对文献记录来说是客观记录,但这些记录的内容并非就一定是真实可靠的,可以通过互证、相关实体的可信度建立一个相对真实性的描述,尤其重要的是这个描述所确立的指标还需要是动态的,根据系统内容的增减代谢和用户的使用情况,或其他相关的指标变化,能够不断地进行重新衡量和计算。只有这样,来自于文献和已经积累的素材数据才能动态地发挥价值,循证系统才是一个不断进化的有机体。
延伸阅读:
1 刘炜.作为数字人文基础设施的图书馆:从不可或缺到无可替代[J].图书馆论坛,2020,40(05):1-2.
图书馆作为历史文献的主要保存机构,由于数字图书馆带来先知先觉,理所当然地成为数字人文最早的基础设施建设者。传统的文献考据和现代的文献计量学都为数字人文作为一个整体的跨学科研究领域提供了方法论借鉴,书目控制带来的规范控制借助于语义技术,天然地为知识的形式化组织(采用本体技术)和知识服务提供了可信的编码基础,也为机器学习和人工智能的发展提供了宝贵的标注语料库。如果说不了解目录之学就无法窥知传统学术门径的话,那么不懂得以文献计量为代表的统计分析方法就无法真正从事数字人文研究。当然,如今数字人文的方法体系已经得到了极大拓展,统计分析的对象从文献深入到了语词文本、社会关系、时空关系乃至经过模型化之后的各类关系。但无论多么复杂,数据永远是基础,拥有大量数据的图书馆永远是人文研究的可靠伙伴。图书馆要提供基于知识的服务还需要在数字图书馆的基础上不断提升水平,包括提升资源加工的语义化水平、提供分析统计及可视化工具。上海图书馆在国内属于数字人文的先知先觉者之一,借助于20多年前开始的持续不断的数字化工作,大量的传统文献和特色文献已被搬运到数字世界,一旦数字人文的研究方法和相关技术得以成熟,很自然地占据了有利的跑道。
2 高劲松,付家炜.面向书画著录的文献循证与时空关联构建研究[J].大学图书馆学报,2022,40(05):26-36.
文献循证是图情学科对数字人文研究的重要方法论贡献。循证研究即“基于证据的研究”,强调任何结论都需要从客观证据中得出,通过建立体系化的原则、流程和方法以保障研究结论的客观性和科学性。文献循证是“基于文献的循证研究”,其实质是以文献材料中的客观事实和结论为证据,围绕研究问题形成一定的证据链,进而通过关系推导寻找可靠结论的过程。传统目录学、版本学、校勘学中的文献考据活动对于研究者的经验和能力具有较高要求,而在数字技术的支持下,文献循证的证据来源不再局限于需要人工鉴别、翻阅的实体文献,还可扩展至文献资料中可被机器处理的各种事实知识,循证实践的应用场景大大扩展。在数字人文兴起的背景下,相关研究者依托人文数据基础设施,对面向文献事实知识的证据链构建和循证分析实践进行了探索。例如在南海历史文献研究中探索文献循证方法的数字化应用;在分析古籍文献循证需求基础上提出基于文本可视化的古籍循证流程框架;在历史人物研究中应用文献循证思想,通过量化分析和关联挖掘构建人物关系网络图谱;在古籍资源建模研究中围绕文献循证的具体需求,构建面向异构资源融合的中文古籍数据模型。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-13 16:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社