||
《科学史的历史》
第十六章:大数据与计算——数字人文时代的科学史
一、记忆的危机
2009年,加州大学洛杉矶分校的图书馆里,一位年轻的科学史博士生正面对着一个令她绝望的场景。她的博士论文主题是20世纪美国高能物理学的发展,需要分析数千篇物理学论文的引用网络。在传统的方法中,这意味着数月甚至数年的时间:手动翻阅纸质期刊,记录每篇论文的参考文献,整理成卡片,再逐步构建网络图谱。但即使完成,她的样本也只能覆盖一小部分文献——也许是几百篇核心论文,而遗漏了成千上万的边缘文献。
同一年,在加州山景城,谷歌公司刚刚完成了一个野心勃勃的项目:将全球数千万篇学术论文数字化,建立可搜索的数据库——这就是后来的谷歌学术(Google Scholar)。另一位研究者,一位计算社会科学家,正在开发一种算法,可以从这些数字化文献中自动提取引用关系,生成大规模的引文网络。他不需要阅读任何一篇论文的全文;算法替他完成了"阅读"——识别作者、标题、期刊、年份、参考文献,构建节点和边,计算中心性指标,可视化网络结构。
这两种方法代表了科学史研究的两种范式:传统的档案研读与数字人文的计算分析。前者深入、细致、语境化,但规模有限;后者广泛、快速、可量化,但可能浅薄和去语境化。它们之间的张力,构成了数字人文时代科学史的核心方法论困境。
但这场变革的根源远比2009年更深。它始于1945年万尼瓦尔·布什的《诚如所思》——那篇设想"记忆扩展器"(Memex)的著名文章;它成熟于1960年代的计算机化文献检索系统;它爆发于1990年代的互联网和数字化运动;它在2010年代的人工智能浪潮中获得了新的动力。科学史,这门最传统的学科之一,正在被数字技术根本性地改变。
本章将追溯这场变革的历史,展示数字工具如何让长时段的概念变迁变得可见,同时追问:当算法开始"阅读"历史时,我们获得了什么?又失去了什么?
二、从卡片目录到引文索引
科学史家对"大数据"的依赖并非全新。早在数字时代之前,他们就开发了精巧的信息组织系统。乔治·萨顿的《科学史导论》项目,依赖于数万张手写卡片——每张卡片记录一个历史事件、一个人物、一篇文献。萨顿的卡片系统是他的"外脑",让他能够在数十年的时间内追踪跨文明、跨学科的知识流动。这种系统是个人化的、手工的、不可复制的——萨顿去世后,他的卡片被存档,但很少有人能够像萨顿那样使用它们。
1950年代,尤金·加菲尔德开创了引文索引的科学计量学方法。加菲尔德是一位化学家和文献学家,他注意到:科学论文之间的引用关系,构成了一个隐性的知识地图。被频繁引用的论文,往往是领域的核心节点;引用模式的变化,反映了知识结构的演变。加菲尔德创办了科学信息研究所(ISI),从1964年开始出版《科学引文索引》(SCI)——一种系统记录论文之间引用关系的数据库。
引文索引将科学史从定性叙事推向定量分析。它让研究者能够回答传统方法难以处理的问题:某个概念何时开始流行?哪个研究者在领域中最具影响力?知识如何在不同学科之间流动?引文分析成为科学政策、学术评价、历史研究的重要工具。但它也受到批评:引用行为是复杂的、社会性的、策略性的——科学家引用某篇论文,可能不是因为其 intellectual 重要性,而是因为其作者的权威、因为期刊的要求、因为政治的正确。引文数量不等于知识价值。
更重要的是,早期的引文索引是商业化的、封闭的。ISI(后来被汤森路透收购,再后来被科睿唯安收购)控制数据的访问,高昂的费用让个人研究者和小型机构难以承受。科学史家能够使用的数据,取决于他们能够支付的价格——这是一种数字鸿沟的早期形式。
三、数字档案与远程访问
1990年代至2000年代,全球主要图书馆和档案馆开始了大规模的数字化项目。美国国会图书馆的"美国记忆"项目、欧洲数字图书馆(Europeana)、谷歌图书(Google Books)扫描项目、JSTOR学术期刊数据库——这些项目将数百万册书籍、数千万页文献、数百万张图像转化为数字形式,通过互联网向全球开放。
对于科学史家,数字档案带来了革命性的可能性。传统研究需要物理访问——飞往伦敦查阅皇家学会的档案,前往巴黎翻阅科学院的手稿,在波士顿的图书馆里逐页扫描19世纪的期刊。数字档案消除了这些地理障碍:研究者可以在北京的办公室里访问伦敦的档案,在开罗的家中查阅巴黎的手稿。这种远程访问民主化了研究,让资源有限的学者——发展中国家的研究者、独立学者、研究生——能够参与原本被排除的对话。
但数字档案也创造了新的不平等。首先,数字化本身是有选择的:哪些文献被优先数字化?通常是"重要的"、"经典的"、"西方的"文献——边缘的、非英语的、手写的文献仍然难以获取。其次,技术门槛构成了新的障碍:使用数字档案需要计算机、网络连接、数字素养——这些在发展中国家仍然稀缺。第三,版权限制让大量20世纪的文献无法被数字化——"20世纪黑洞"现象,使得研究20世纪科学史的数字资源反而比19世纪更少。
更深层的问题是历史感的丧失。传统档案研究涉及物质性的体验:纸张的质感、墨水的颜色、手写的修改痕迹、装订的方式——这些"副文本"携带了丰富的历史信息。数字档案将这些物质性扁平化为像素,研究者失去了与历史对象的触觉联系。一封爱因斯坦的手写信,在数字图像中可能只是一页黑白扫描;但其纸张的来源、墨水的品牌、书写的压力、折痕的方向——这些细节可能揭示了写信时的情境、情绪和社会关系。
四、文本挖掘:算法的阅读
21世纪初,文本挖掘(text mining)和自然语言处理(NLP)技术开始被应用于历史文献分析。这些技术让计算机能够"阅读"大规模文本集合——不是理解其意义,而是识别模式:词频变化、主题分布、情感倾向、概念网络。
一个经典的案例是"文化组学"(culturomics)。2010年,哈佛大学的让-巴蒂斯特·米歇尔等人与谷歌合作,分析了谷歌图书数字化项目中的500万册书籍(占人类出版书籍的4%),追踪了单词频率在数百年间的变化。他们发现:"进化"一词在1859年(《物种起源》出版)后激增;"相对论"在1919年(爱丁顿的日食观测证实爱因斯坦预言)后跃升;"DNA"在1953年后缓慢增长,在1990年代(人类基因组计划)后爆炸。
这些发现验证了传统科学史家的定性判断,但以前所未有的规模和精度。它们也揭示了传统方法难以捕捉的现象:概念的生命周期——某些词汇快速兴起然后衰落(如"燃素"),某些词汇长期稳定然后突然变化(如"基因"),某些词汇持续积累(如"信息")。这些模式为科学史研究提供了新的问题来源:为什么某些概念在特定时期流行?概念竞争的结果如何被决定?
但文本挖掘也面临严重的解释困境。算法可以识别"DNA"一词频率的增加,但它无法区分:这种增加是由于分子生物学的科学突破,还是由于媒体炒作,还是由于商业营销(如"DNA检测"服务)?词频变化是多因果的,而算法只能识别相关性,不能推断因果性。当科学史家使用文本挖掘时,他们必须进行艰苦的语境化工作——回到原始文献,理解特定词汇在特定语境中的具体含义。
更危险的是"黑箱化"。现代NLP模型(如BERT、GPT)基于深度神经网络,其内部决策过程是不可解释的。模型可以说"这两个文本相似",但无法解释"为什么相似";可以预测"下一个词是什么",但无法说明"基于什么推理"。当科学史家使用这些工具时,他们面临一个认识论悖论:他们追求的是理解历史,但使用的工具本身拒绝被理解。
五、引文网络的可视化:知识的地图
引文网络分析是数字人文在科学史中最成功的应用之一。通过将论文作为节点、引用关系作为边,研究者可以构建知识地图——可视化科学领域的结构、演变和动态。
德里克·德·索拉·普赖斯在1965年就提出了"研究前沿"(research front)的概念:科学知识的增长不是均匀的,而是在特定领域形成密集的引用集群——就像海浪的前沿,不断向前推进。但普赖斯没有工具来实证这个概念;他只能基于小样本进行推测。
数字时代让这种可视化成为可能。2004年,凯文·博伊克和理查德·克伦等人开发了CiteSpace软件,可以自动识别引文网络中的突现节点(burst nodes)——被引用频率突然增加的论文,标志着领域的转折点。2009年,阿尔伯特-拉斯洛·巴拉巴西的团队分析了美国物理学会期刊的数十年数据,发现引文网络具有"优先连接"特征:已经被频繁引用的论文更容易获得新引用——"富者愈富"的马太效应。
这些可视化工具让科学史家能够"看见"知识的结构变迁。例如,分析"复杂系统"领域的引文网络,可以识别出从"混沌理论"到"自组织临界性"到"网络科学"的范式转换;分析"气候变化"领域的引文网络,可以追踪从"温室效应假说"到"全球变暖共识"到"气候政策争论"的知识-政治交织。
但可视化也有其修辞权力。一张精心设计的网络图,可以暗示"客观"的知识结构,而隐藏其建构性:节点的选择(哪些论文被纳入)、边的定义(直接引用还是共被引)、布局算法(力导向还是层次化)、颜色编码(按时间还是按主题)——这些选择都影响最终的"地图",但往往在可视化中被自然化。科学史家需要成为"地图的批判读者"——不仅看地图显示了什么,更追问地图隐藏了什么、假设了什么、服务于什么利益。
六、人工智能与历史研究:机器能否"阅读"科学史?
2010年代,深度学习革命将人工智能推向了新的高度。大型语言模型(LLM)如GPT系列,通过在海量文本上训练,能够生成流畅的自然语言文本。这引发了科学史家的一个根本问题:机器能否"阅读"科学史?
表面上看,LLM似乎具备这种能力。它们可以总结一篇科学论文的内容,可以比较两位科学家的观点,可以生成关于特定历史事件的叙述。一些实验性项目甚至尝试让LLM"撰写"科学史——输入一组文献,输出一段历史叙述。这种能力对于处理大规模文献具有 obvious 的吸引力:一台机器可以在几小时内"阅读"数万篇论文,而人类研究者需要数年。
但LLM的"阅读"是表面的、统计的、去语境化的。它们不理解概念的历史演变——当它们说"燃素"时,它们不知道这是18世纪化学的核心概念,已被废弃两百余年;它们只是根据训练数据中的词频共现,预测"燃素"后面最可能出现的词。它们不区分科学话语和伪科学话语——如果训练数据中包含大量创世论文本,它们可能以同样的"客观性"叙述创世论和进化论。它们无法处理矛盾证据——当历史文献相互冲突时,它们倾向于平滑矛盾,生成"最可能"的叙述,而非揭示冲突本身。
更深层的问题是认识论的。科学史的核心任务不是"总结"过去,而是"理解"过去——理解过去科学家的概念世界、他们的假设、他们的限制、他们的选择。这种理解需要同情地进入(empathetic entry)——暂时悬置我们今日的知识,体验另一种理性的可能性。这是人类特有的认知能力,涉及想象、情感、价值判断——而这些正是LLM所缺乏的。
LLM可以作为辅助工具:帮助研究者筛选文献、生成摘要、识别模式、提出假设。但它们不能替代研究者的历史判断——决定哪些问题值得追问、哪些证据可信、哪些解释合理、哪些叙事有道德风险。这种判断是具身的——它依赖于研究者的历史位置、文化背景、政治承诺,而这些不是缺陷,而是理解的资源。
七、数字人文的陷阱:数据主义与历史感的丧失
数字人文在科学史中的应用,面临三个深层陷阱。
第一个是数据主义(dataism)——将数据视为最高价值,将量化视为最可靠的方法,将算法视为最中性的工具。数据主义者相信,只要有足够的数据和足够强大的计算,一切问题都可以被解决。他们忽视了数据的建构性:什么被记录?什么被遗漏?什么被编码?什么被排除?科学史的数据——无论是引文索引、数字化文献还是实验记录——都携带了特定的权力关系和历史痕迹。将数据视为"客观的原材料",就是重复了实证主义的最古老谬误。
第二个是黑箱化(black-boxing)——当算法变得过于复杂,其内部机制无法被理解时,研究者倾向于将其视为"黑箱",只关注输入和输出。这在深度学习中尤为严重:神经网络有数十亿参数,其决策过程是分布式的,无法被还原为简单的规则。当科学史家使用黑箱工具时,他们失去了方法论的自我意识——不知道自己如何知道,无法评估知识的可靠性。这与科学史的核心精神相悖:科学史正是要打开黑箱,揭示知识生产的机制。
第三个是历史感的丧失(loss of historical sense)——当算法处理大规模、长时段的数据时,它倾向于平滑化历史的断裂、偶然性和复杂性。算法喜欢趋势和模式,而历史充满了意外和反讽。一个概念在特定时期的衰落,可能不是因为被"更好的"概念替代,而是因为政治镇压、战争破坏、个人死亡。文本挖掘无法捕捉这些微观事件的宏观后果;它需要人类研究者的叙事能力,将分散的事件编织为有意义的历史。
八、活性算法视角:记忆的数字重构
从活性算法的框架看,数字人文是科学史记忆功能的技术实现。
传统科学史的记忆是生物的、社会的、物质的:它依赖于研究者的大脑(生物记忆)、学术共同体的传承(社会记忆)、档案和博物馆的物质载体(物质记忆)。这种记忆是选择性的、缓慢的、有损耗的——某些事件被铭记,某些被遗忘;某些关联被强化,某些被弱化。这种选择性不是缺陷,而是适应性的特征——它让系统能够聚焦于当前相关的问题,避免被无关信息淹没。
数字人文提供了一种新的记忆层:算法的、分布式的、大规模的。它让系统能够存储和检索远超生物能力的信息,能够识别跨时空的隐藏模式,能够模拟替代的历史路径。但这种新记忆层也带来了新的挑战:
记忆过载:当一切都被数字化、一切都被保存时,系统面临信息洪水。什么值得记住?什么可以遗忘?算法需要选择机制——但这些机制本身携带偏见(如流行度、中心性、语言)。
记忆固化:数字档案的持久性可能阻碍历史的重写。传统档案会物理 decay,为新的解释腾出空间;数字档案的"永恒保存"可能锁定特定的历史叙述,使修正变得更加困难。
记忆外包:当算法替人类"记忆"时,人类的记忆能力可能退化。如果研究者依赖数据库来检索事实,而非通过自己的阅读和思考来内化知识,那么他们的理解深度可能受损。
活性算法的框架提示:健康的记忆系统需要多层互动。生物记忆提供深度和语境,社会记忆提供批判和协商,物质记忆提供持久和证据,算法记忆提供规模和速度。这些层次不是相互替代的,而是相互补充的——当它们通过批判性对话互动时,系统产生最可靠的历史知识。
九、结语:在数字时代保持历史感
数字技术正在根本性地改变科学史的研究方法。从大规模文本挖掘到引文网络可视化,从数字档案到人工智能辅助阅读,科学史家获得了前所未有的工具。但这些工具也带来了前所未有的挑战:数据主义、黑箱化、历史感的丧失。
未来的科学史,需要在拥抱数字工具与保持历史敏感之间找到平衡。这意味着:
批判性地使用数据:不仅问"数据说了什么",更问"数据从哪里来"、"谁被包括"、"谁被排除"、"什么被编码"。
保持方法论透明:不仅展示研究结果,更展示研究过程——算法的选择、参数的设置、解释的逻辑。
维护历史叙事:不仅识别模式和趋势,更讲述故事——关于人、关于选择、关于偶然、关于道德困境的故事。
承认工具的局限:算法可以辅助,但不能替代人类的历史判断——那种基于同情、想象和价值承诺的判断。
因为最终,科学史不是关于数据的学科,而是关于意义的学科。而意义,永远是人类的事业。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-19 11:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社