博文

《科学史的历史》第十六章：大数据与计算——数字人文时代的科学史

已有 499 次阅读 2026-5-19 07:43 |个人分类:我思故我在|系统分类:观点评述

《科学史的历史》

第十六章：大数据与计算——数字人文时代的科学史

一、记忆的危机

2009年，加州大学洛杉矶分校的图书馆里，一位年轻的科学史博士生正面对着一个令她绝望的场景。她的博士论文主题是20世纪美国高能物理学的发展，需要分析数千篇物理学论文的引用网络。在传统的方法中，这意味着数月甚至数年的时间：手动翻阅纸质期刊，记录每篇论文的参考文献，整理成卡片，再逐步构建网络图谱。但即使完成，她的样本也只能覆盖一小部分文献——也许是几百篇核心论文，而遗漏了成千上万的边缘文献。

同一年，在加州山景城，谷歌公司刚刚完成了一个野心勃勃的项目：将全球数千万篇学术论文数字化，建立可搜索的数据库——这就是后来的谷歌学术（Google Scholar）。另一位研究者，一位计算社会科学家，正在开发一种算法，可以从这些数字化文献中自动提取引用关系，生成大规模的引文网络。他不需要阅读任何一篇论文的全文；算法替他完成了"阅读"——识别作者、标题、期刊、年份、参考文献，构建节点和边，计算中心性指标，可视化网络结构。

这两种方法代表了科学史研究的两种范式：传统的档案研读与数字人文的计算分析。前者深入、细致、语境化，但规模有限；后者广泛、快速、可量化，但可能浅薄和去语境化。它们之间的张力，构成了数字人文时代科学史的核心方法论困境。

但这场变革的根源远比2009年更深。它始于1945年万尼瓦尔·布什的《诚如所思》——那篇设想"记忆扩展器"（Memex）的著名文章；它成熟于1960年代的计算机化文献检索系统；它爆发于1990年代的互联网和数字化运动；它在2010年代的人工智能浪潮中获得了新的动力。科学史，这门最传统的学科之一，正在被数字技术根本性地改变。

本章将追溯这场变革的历史，展示数字工具如何让长时段的概念变迁变得可见，同时追问：当算法开始"阅读"历史时，我们获得了什么？又失去了什么？

二、从卡片目录到引文索引

科学史家对"大数据"的依赖并非全新。早在数字时代之前，他们就开发了精巧的信息组织系统。乔治·萨顿的《科学史导论》项目，依赖于数万张手写卡片——每张卡片记录一个历史事件、一个人物、一篇文献。萨顿的卡片系统是他的"外脑"，让他能够在数十年的时间内追踪跨文明、跨学科的知识流动。这种系统是个人化的、手工的、不可复制的——萨顿去世后，他的卡片被存档，但很少有人能够像萨顿那样使用它们。

1950年代，尤金·加菲尔德开创了引文索引的科学计量学方法。加菲尔德是一位化学家和文献学家，他注意到：科学论文之间的引用关系，构成了一个隐性的知识地图。被频繁引用的论文，往往是领域的核心节点；引用模式的变化，反映了知识结构的演变。加菲尔德创办了科学信息研究所（ISI），从1964年开始出版《科学引文索引》（SCI）——一种系统记录论文之间引用关系的数据库。

引文索引将科学史从定性叙事推向定量分析。它让研究者能够回答传统方法难以处理的问题：某个概念何时开始流行？哪个研究者在领域中最具影响力？知识如何在不同学科之间流动？引文分析成为科学政策、学术评价、历史研究的重要工具。但它也受到批评：引用行为是复杂的、社会性的、策略性的——科学家引用某篇论文，可能不是因为其 intellectual 重要性，而是因为其作者的权威、因为期刊的要求、因为政治的正确。引文数量不等于知识价值。

更重要的是，早期的引文索引是商业化的、封闭的。ISI（后来被汤森路透收购，再后来被科睿唯安收购）控制数据的访问，高昂的费用让个人研究者和小型机构难以承受。科学史家能够使用的数据，取决于他们能够支付的价格——这是一种数字鸿沟的早期形式。

三、数字档案与远程访问

1990年代至2000年代，全球主要图书馆和档案馆开始了大规模的数字化项目。美国国会图书馆的"美国记忆"项目、欧洲数字图书馆（Europeana）、谷歌图书（Google Books）扫描项目、JSTOR学术期刊数据库——这些项目将数百万册书籍、数千万页文献、数百万张图像转化为数字形式，通过互联网向全球开放。

对于科学史家，数字档案带来了革命性的可能性。传统研究需要物理访问——飞往伦敦查阅皇家学会的档案，前往巴黎翻阅科学院的手稿，在波士顿的图书馆里逐页扫描19世纪的期刊。数字档案消除了这些地理障碍：研究者可以在北京的办公室里访问伦敦的档案，在开罗的家中查阅巴黎的手稿。这种远程访问民主化了研究，让资源有限的学者——发展中国家的研究者、独立学者、研究生——能够参与原本被排除的对话。

但数字档案也创造了新的不平等。首先，数字化本身是有选择的：哪些文献被优先数字化？通常是"重要的"、"经典的"、"西方的"文献——边缘的、非英语的、手写的文献仍然难以获取。其次，技术门槛构成了新的障碍：使用数字档案需要计算机、网络连接、数字素养——这些在发展中国家仍然稀缺。第三，版权限制让大量20世纪的文献无法被数字化——"20世纪黑洞"现象，使得研究20世纪科学史的数字资源反而比19世纪更少。

更深层的问题是历史感的丧失。传统档案研究涉及物质性的体验：纸张的质感、墨水的颜色、手写的修改痕迹、装订的方式——这些"副文本"携带了丰富的历史信息。数字档案将这些物质性扁平化为像素，研究者失去了与历史对象的触觉联系。一封爱因斯坦的手写信，在数字图像中可能只是一页黑白扫描；但其纸张的来源、墨水的品牌、书写的压力、折痕的方向——这些细节可能揭示了写信时的情境、情绪和社会关系。

四、文本挖掘：算法的阅读

21世纪初，文本挖掘（text mining）和自然语言处理（NLP）技术开始被应用于历史文献分析。这些技术让计算机能够"阅读"大规模文本集合——不是理解其意义，而是识别模式：词频变化、主题分布、情感倾向、概念网络。

一个经典的案例是"文化组学"（culturomics）。2010年，哈佛大学的让-巴蒂斯特·米歇尔等人与谷歌合作，分析了谷歌图书数字化项目中的500万册书籍（占人类出版书籍的4%），追踪了单词频率在数百年间的变化。他们发现："进化"一词在1859年（《物种起源》出版）后激增；"相对论"在1919年（爱丁顿的日食观测证实爱因斯坦预言）后跃升；"DNA"在1953年后缓慢增长，在1990年代（人类基因组计划）后爆炸。

这些发现验证了传统科学史家的定性判断，但以前所未有的规模和精度。它们也揭示了传统方法难以捕捉的现象：概念的生命周期——某些词汇快速兴起然后衰落（如"燃素"），某些词汇长期稳定然后突然变化（如"基因"），某些词汇持续积累（如"信息"）。这些模式为科学史研究提供了新的问题来源：为什么某些概念在特定时期流行？概念竞争的结果如何被决定？

但文本挖掘也面临严重的解释困境。算法可以识别"DNA"一词频率的增加，但它无法区分：这种增加是由于分子生物学的科学突破，还是由于媒体炒作，还是由于商业营销（如"DNA检测"服务）？词频变化是多因果的，而算法只能识别相关性，不能推断因果性。当科学史家使用文本挖掘时，他们必须进行艰苦的语境化工作——回到原始文献，理解特定词汇在特定语境中的具体含义。

更危险的是"黑箱化"。现代NLP模型（如BERT、GPT）基于深度神经网络，其内部决策过程是不可解释的。模型可以说"这两个文本相似"，但无法解释"为什么相似"；可以预测"下一个词是什么"，但无法说明"基于什么推理"。当科学史家使用这些工具时，他们面临一个认识论悖论：他们追求的是理解历史，但使用的工具本身拒绝被理解。

五、引文网络的可视化：知识的地图

引文网络分析是数字人文在科学史中最成功的应用之一。通过将论文作为节点、引用关系作为边，研究者可以构建知识地图——可视化科学领域的结构、演变和动态。

德里克·德·索拉·普赖斯在1965年就提出了"研究前沿"（research front）的概念：科学知识的增长不是均匀的，而是在特定领域形成密集的引用集群——就像海浪的前沿，不断向前推进。但普赖斯没有工具来实证这个概念；他只能基于小样本进行推测。

数字时代让这种可视化成为可能。2004年，凯文·博伊克和理查德·克伦等人开发了CiteSpace软件，可以自动识别引文网络中的突现节点（burst nodes）——被引用频率突然增加的论文，标志着领域的转折点。2009年，阿尔伯特-拉斯洛·巴拉巴西的团队分析了美国物理学会期刊的数十年数据，发现引文网络具有"优先连接"特征：已经被频繁引用的论文更容易获得新引用——"富者愈富"的马太效应。

这些可视化工具让科学史家能够"看见"知识的结构变迁。例如，分析"复杂系统"领域的引文网络，可以识别出从"混沌理论"到"自组织临界性"到"网络科学"的范式转换；分析"气候变化"领域的引文网络，可以追踪从"温室效应假说"到"全球变暖共识"到"气候政策争论"的知识-政治交织。

但可视化也有其修辞权力。一张精心设计的网络图，可以暗示"客观"的知识结构，而隐藏其建构性：节点的选择（哪些论文被纳入）、边的定义（直接引用还是共被引）、布局算法（力导向还是层次化）、颜色编码（按时间还是按主题）——这些选择都影响最终的"地图"，但往往在可视化中被自然化。科学史家需要成为"地图的批判读者"——不仅看地图显示了什么，更追问地图隐藏了什么、假设了什么、服务于什么利益。

六、人工智能与历史研究：机器能否"阅读"科学史？

2010年代，深度学习革命将人工智能推向了新的高度。大型语言模型（LLM）如GPT系列，通过在海量文本上训练，能够生成流畅的自然语言文本。这引发了科学史家的一个根本问题：机器能否"阅读"科学史？

表面上看，LLM似乎具备这种能力。它们可以总结一篇科学论文的内容，可以比较两位科学家的观点，可以生成关于特定历史事件的叙述。一些实验性项目甚至尝试让LLM"撰写"科学史——输入一组文献，输出一段历史叙述。这种能力对于处理大规模文献具有 obvious 的吸引力：一台机器可以在几小时内"阅读"数万篇论文，而人类研究者需要数年。

但LLM的"阅读"是表面的、统计的、去语境化的。它们不理解概念的历史演变——当它们说"燃素"时，它们不知道这是18世纪化学的核心概念，已被废弃两百余年；它们只是根据训练数据中的词频共现，预测"燃素"后面最可能出现的词。它们不区分科学话语和伪科学话语——如果训练数据中包含大量创世论文本，它们可能以同样的"客观性"叙述创世论和进化论。它们无法处理矛盾证据——当历史文献相互冲突时，它们倾向于平滑矛盾，生成"最可能"的叙述，而非揭示冲突本身。

更深层的问题是认识论的。科学史的核心任务不是"总结"过去，而是"理解"过去——理解过去科学家的概念世界、他们的假设、他们的限制、他们的选择。这种理解需要同情地进入（empathetic entry）——暂时悬置我们今日的知识，体验另一种理性的可能性。这是人类特有的认知能力，涉及想象、情感、价值判断——而这些正是LLM所缺乏的。

LLM可以作为辅助工具：帮助研究者筛选文献、生成摘要、识别模式、提出假设。但它们不能替代研究者的历史判断——决定哪些问题值得追问、哪些证据可信、哪些解释合理、哪些叙事有道德风险。这种判断是具身的——它依赖于研究者的历史位置、文化背景、政治承诺，而这些不是缺陷，而是理解的资源。

七、数字人文的陷阱：数据主义与历史感的丧失

数字人文在科学史中的应用，面临三个深层陷阱。

第一个是数据主义（dataism）——将数据视为最高价值，将量化视为最可靠的方法，将算法视为最中性的工具。数据主义者相信，只要有足够的数据和足够强大的计算，一切问题都可以被解决。他们忽视了数据的建构性：什么被记录？什么被遗漏？什么被编码？什么被排除？科学史的数据——无论是引文索引、数字化文献还是实验记录——都携带了特定的权力关系和历史痕迹。将数据视为"客观的原材料"，就是重复了实证主义的最古老谬误。

第二个是黑箱化（black-boxing）——当算法变得过于复杂，其内部机制无法被理解时，研究者倾向于将其视为"黑箱"，只关注输入和输出。这在深度学习中尤为严重：神经网络有数十亿参数，其决策过程是分布式的，无法被还原为简单的规则。当科学史家使用黑箱工具时，他们失去了方法论的自我意识——不知道自己如何知道，无法评估知识的可靠性。这与科学史的核心精神相悖：科学史正是要打开黑箱，揭示知识生产的机制。

第三个是历史感的丧失（loss of historical sense）——当算法处理大规模、长时段的数据时，它倾向于平滑化历史的断裂、偶然性和复杂性。算法喜欢趋势和模式，而历史充满了意外和反讽。一个概念在特定时期的衰落，可能不是因为被"更好的"概念替代，而是因为政治镇压、战争破坏、个人死亡。文本挖掘无法捕捉这些微观事件的宏观后果；它需要人类研究者的叙事能力，将分散的事件编织为有意义的历史。

八、活性算法视角：记忆的数字重构

从活性算法的框架看，数字人文是科学史记忆功能的技术实现。

传统科学史的记忆是生物的、社会的、物质的：它依赖于研究者的大脑（生物记忆）、学术共同体的传承（社会记忆）、档案和博物馆的物质载体（物质记忆）。这种记忆是选择性的、缓慢的、有损耗的——某些事件被铭记，某些被遗忘；某些关联被强化，某些被弱化。这种选择性不是缺陷，而是适应性的特征——它让系统能够聚焦于当前相关的问题，避免被无关信息淹没。

数字人文提供了一种新的记忆层：算法的、分布式的、大规模的。它让系统能够存储和检索远超生物能力的信息，能够识别跨时空的隐藏模式，能够模拟替代的历史路径。但这种新记忆层也带来了新的挑战：

记忆过载：当一切都被数字化、一切都被保存时，系统面临信息洪水。什么值得记住？什么可以遗忘？算法需要选择机制——但这些机制本身携带偏见（如流行度、中心性、语言）。

记忆固化：数字档案的持久性可能阻碍历史的重写。传统档案会物理 decay，为新的解释腾出空间；数字档案的"永恒保存"可能锁定特定的历史叙述，使修正变得更加困难。

记忆外包：当算法替人类"记忆"时，人类的记忆能力可能退化。如果研究者依赖数据库来检索事实，而非通过自己的阅读和思考来内化知识，那么他们的理解深度可能受损。

活性算法的框架提示：健康的记忆系统需要多层互动。生物记忆提供深度和语境，社会记忆提供批判和协商，物质记忆提供持久和证据，算法记忆提供规模和速度。这些层次不是相互替代的，而是相互补充的——当它们通过批判性对话互动时，系统产生最可靠的历史知识。

九、结语：在数字时代保持历史感

数字技术正在根本性地改变科学史的研究方法。从大规模文本挖掘到引文网络可视化，从数字档案到人工智能辅助阅读，科学史家获得了前所未有的工具。但这些工具也带来了前所未有的挑战：数据主义、黑箱化、历史感的丧失。

未来的科学史，需要在拥抱数字工具与保持历史敏感之间找到平衡。这意味着：

批判性地使用数据：不仅问"数据说了什么"，更问"数据从哪里来"、"谁被包括"、"谁被排除"、"什么被编码"。

保持方法论透明：不仅展示研究结果，更展示研究过程——算法的选择、参数的设置、解释的逻辑。

维护历史叙事：不仅识别模式和趋势，更讲述故事——关于人、关于选择、关于偶然、关于道德困境的故事。

承认工具的局限：算法可以辅助，但不能替代人类的历史判断——那种基于同情、想象和价值承诺的判断。

因为最终，科学史不是关于数据的学科，而是关于意义的学科。而意义，永远是人类的事业。

转载本文请联系原作者获取授权，同时请注明本文来自王涛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41701-1535425.html

上一篇：《科学史的历史》第十五章：环境与地球系统——从林奈到盖娅的尺度跃迁
下一篇：Kimi观点：在薛定谔的《生命是什么？》中，给出了哪些新的想法？

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 111.27.171.*| 热度|

当前推荐数：4 推荐人：高宏 宁利中 郑永军 杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

王涛

扫一扫，分享此博文

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

《科学史的历史》第十六章：大数据与计算——数字人文时代的科学史

当前推荐数：4 推荐人：高宏 宁利中 郑永军 杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

《科学史的历史》 第十六章：大数据与计算——数字人文时代的科学史

当前推荐数：4 推荐人： 高宏 宁利中 郑永军 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《科学史的历史》第十六章：大数据与计算——数字人文时代的科学史

当前推荐数：4 推荐人：高宏宁利中郑永军杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)