||
第二十二章 硅灵的觉醒:从图灵测试到ChatGPT的幻觉
一、1950年的曼彻斯特:一个问题的诞生
1950年10月,艾伦·图灵,三十八岁的数学家、计算机先驱、密码破译者,在《心智》杂志发表了一篇论文:《计算机器与智能》。文章开篇不是定义,而是一个问题:"机器能思考吗?"图灵认为这个问题"无意义",建议替换为模仿游戏——后世称为"图灵测试"。
图灵测试的设计是优雅的:人类审讯者通过文本终端与两个对象对话,一个是人类,一个是机器。如果审讯者无法可靠区分两者,则机器通过了测试,可以被认为是"智能的"。这种设计回避了"思考"的哲学定义,将智能还原为可观察的行为。
图灵的预测是大胆的:到2000年,计算机可以存储10^9比特信息,在5分钟的对话中欺骗30%的审讯者。他讨论了可能的反对意见:来自意识的论证(机器没有主观体验)、来自数学的论证(哥德尔定理限制机器能力)、来自神经学的论证(机器没有神经系统)。他的回应是实用主义的:如果机器表现得像有智能,我们就没有理由否认它智能。
但图灵也表达了不安。他在论文结尾写道:"我们只能看到前方不远,但我们可以看到那里有很多需要完成的工作。"这种不安被后世忽视,直到2010年代后才被重新发现。
二、1960-1990年代:AI的冬天与专家系统的泡沫
1956年的达特茅斯会议正式命名了"人工智能"领域,承诺"学习的每一个方面或智能的任何特征,原则上都可以被精确描述,以至于可以用机器来模拟"。这种乐观在1960-1970年代遭遇挫折。
符号AI——基于逻辑和规则的方法——在有限领域成功(如国际象棋、数学定理证明),但在开放世界失败。语言理解的复杂性、常识推理的困难、知识获取的瓶颈,使早期承诺落空。1973年的莱特希尔报告(英国)和1980年代的资助削减,导致"AI冬天"。
专家系统在1980年代短暂复兴:MYCIN(医学诊断)、DENDRAL(化学分析)、XCON(计算机配置)。这些系统将人类专家的知识编码为规则,在狭窄领域表现良好。但它们是脆弱的:超出知识边界就失败,无法学习,维护成本高昂。1990年代,专家系统泡沫破裂,AI再次进入冬天。
图灵测试在这段时间成为边缘的、哲学的议题,而非技术的。约瑟夫·魏岑鲍姆的ELIZA(1966)展示了简单的模式匹配可以模拟心理治疗对话,但他本人警告这种模拟的危险:人们倾向于将机器拟人化,赋予它们不具备的理解。这种警告被忽视,ELIZA成为"聊天机器人"的原型。
三、1997年的深蓝:暴力计算的胜利
1997年5月,IBM的深蓝计算机击败世界象棋冠军加里·卡斯帕罗夫。这是AI的里程碑,也是误导。深蓝的胜利不是"智能"的突破,而是暴力计算的胜利:专用硬件评估2亿个位置每秒,使用人类编写的开局库和残局库,优化搜索算法。
卡斯帕罗夫在赛后说:"我看到了机器中某种深层的智能和创造力。"但这种感知是拟人化的错觉。深蓝不理解象棋,它没有策略,它不"思考"。它评估位置,选择数值最高的移动。它的"创造力"是人类程序员的创造力,它的"深度"是计算资源的深度。
这种混淆在公众理解中持续:将计算能力等同于智能,将优化等同于理解。深蓝的胜利被引用为AI即将超越人类的证据,但实际上它展示了特定任务的自动化,而非一般智能。
四、2011年的沃森:语言游戏的胜利
2011年2月,IBM的沃森在《危险边缘》问答节目中击败人类冠军。沃森处理自然语言问题,搜索大规模知识库,在几秒钟内给出答案。它的胜利似乎更接近"理解":语言是智能的标志,问答需要知识整合。
但沃森的方法是统计的、表面的。它分析问题的语法结构,匹配知识库中的模式,计算候选答案的置信度。它不"理解"问题,不"知道"答案,它关联文本片段。当问题需要推理、常识、或世界模型时,沃森失败。
沃森的医疗应用(肿瘤诊断)在2010年代遭遇困难:它推荐不安全的治疗,忽略患者特定情境,成本高昂而收益有限。2010年代末,IBM缩减沃森项目,承认过度承诺。
五、2012年的ImageNet:深度学习的革命
2012年,多伦多大学的亚历克斯·克里泽夫斯基、伊利亚·苏茨克弗和杰弗里·辛顿,使用深度神经网络赢得ImageNet图像识别竞赛。他们的错误率(15.3%)远低于第二名(26.2%),展示了深度学习的潜力。
深度学习是多层神经网络,从数据中学习特征层次。与符号AI的手工规则不同,深度学习自动提取模式:第一层识别边缘,第二层识别纹理,更高层识别物体部分和整体。这种"表示学习"在图像、语音、文本任务中表现卓越。
2012年后,深度学习主导AI研究。2014年,生成对抗网络(GAN)生成逼真图像。2016年,AlphaGo击败李世石,使用深度学习评估棋盘位置。2017年,Transformer架构("注意力机制")革命化自然语言处理。
但这些成功是狭窄的。深度学习系统需要大量标注数据,在分布外数据上脆弱,缺乏因果推理,无法解释决策。AlphaGo不理解围棋,它预测获胜概率;图像识别器不理解图像,它分类像素模式。
六、2022年的ChatGPT:幻觉的民主化
2022年11月,OpenAI发布ChatGPT,基于GPT-3.5架构的大型语言模型。它生成流畅、连贯、看似知识的文本,回答问题、撰写文章、编写代码、创作诗歌。五天内用户超过百万,两个月超过一亿,成为历史上增长最快的消费应用。
ChatGPT的能力是惊人的,也是幻觉的。它"产生"事实错误:虚构历史人物,错误引用来源,自信地陈述荒谬。它"产生"偏见:复制训练数据中的性别、种族刻板印象。它"产生"有害内容:在被诱导时生成危险建议、仇恨言论、错误信息。
这些"幻觉"不是bug,而是架构的特征。大型语言模型(LLM)预测下一个词的概率,基于训练数据中的模式。它们没有世界模型,没有真值概念,没有意图理解。流畅性被误认为准确性,连贯性被误认为一致性,自信被误认为可靠性。
但公众反应是两极化的:要么将ChatGPT视为通用智能的突破,要么视为无意义的统计游戏。两种极端都错过了关键:LLM是新的认知技术,既非思考也非非思考,而是第三种东西——需要新的概念框架来理解。
七、图灵的回归:测试的失效与重生
ChatGPT使图灵测试过时。不是因为它"通过"了测试(它确实可以欺骗许多审讯者),而是因为测试本身失效了。当机器可以生成流畅文本,测试不再区分智能与模拟。我们需要新的标准:真实性(对应世界)、一致性(逻辑无矛盾)、可解释性(决策可理解)、价值对齐(行为符合人类价值)。
这些标准比图灵测试更难操作化。2023年,研究人员提出替代方案:Winograd模式(需要常识推理)、ARC基准(抽象推理)、以及"红队测试"(专家尝试诱导有害输出)。但没有共识,没有"AI的IQ测试"。
更深层的挑战是评估者的能力。如果人类无法区分机器生成与人工撰写的文本,我们如何评估机器的理解?如果机器的知识超越任何单个人类(训练数据包含亿万文本),谁有资格评估?
图灵在1950年回避了"思考"的定义,但2020年代的挑战是评估的民主化:当AI系统被亿万用户使用,"通过测试"成为社会过程,而非实验室控制。ChatGPT的"成功"是社会的,而非认知的:它满足了某些需求(信息获取、创意辅助、娱乐),创造了新的依赖和新的风险。
八、责任的分散:从阿西洛马到AI安全
2017年,未来生命研究所组织阿西洛马会议(呼应1975年的基因工程会议),发布《阿西洛马AI原则》,呼吁有益AI的研究。2023年,AI安全成为公共议题:OpenAI的CEO山姆·阿尔特曼在美国国会作证,呼吁监管;科技领袖签署声明,警告"灭绝风险";各国政府起草AI法规。
但这种关注是矛盾的。AI公司警告风险,同时加速开发;他们呼吁监管,同时游说宽松规则。"AI安全"成为修辞的工具:展示责任,转移批评,维持竞争优势。
与核技术或基因技术不同,AI的双重用途是内在的:同一系统可以用于有益和有害目的,区分取决于使用情境而非技术本身。监管困难:如何控制开源模型?如何定义"危险能力"?如何在国际竞争中协调?
科学家责任的议题回归。2023年,图灵奖得主杰弗里·辛顿离开Google,公开警告AI风险。他的行动呼应奥本海默:知识创造者试图限制知识使用。但AI的分散性(无单一"曼哈顿计划")、商业驱动(私人公司主导)、全球竞争(中美技术战),使责任分配更复杂。
九、教训:模拟、理解与幻觉
从图灵到ChatGPT的历史提供了关于智能认知的多重教训。
第一,行为模拟不等于认知理解。 图灵测试将智能还原为行为,但深度学习展示了行为可以无理解地产生。流畅的文本可以无真值,准确的模式识别可以无世界模型。我们需要区分表现的智能与基础的智能。
第二,能力跃迁可以是突然的、不可预测的。 从ELIZA到ChatGPT,能力提升是渐进的,但公众感知是突然的。这种感知跃迁比技术跃迁更危险:社会系统来不及适应,监管滞后,风险被低估。
第三,民主化既是机会也是风险。 CRISPR使基因编辑民主化,ChatGPT使AI能力民主化。但民主化意味着控制的丧失:谁使用,如何使用,无法预测或阻止。
第四,评估的困难是核心的。 我们不知道ChatGPT是否"理解",因为我们没有"理解"的满意定义。这种概念不确定性是持久的,不是暂时的。AI迫使我们面对认知科学的最深问题。
最后,图灵的不安是预言性的。 他在1950年看到了"前方不远"的工作,但没有看到2020年代的深渊。我们仍然在"不远"处,但"很多需要完成"包括重新定义智能、理解、责任——这些人类自我理解的基础概念。
尾声:模仿游戏的终结
图灵测试是模仿游戏:机器模仿人类,人类判断模仿。ChatGPT终结了这种游戏,不是通过胜利,而是通过使游戏 irrelevant。当模仿如此完美,测试不再有趣;当幻觉如此普遍,真实性问题回归。
但这也开启了新的可能性。如果机器可以生成人类水平的文本,我们可以将认知劳动外包:研究助理、创意伙伴、教育工具。这种外包是解放的,也是异化的:我们失去某些能力,获得某些能力,净效应未知。
图灵的幽灵在ChatGPT的响应中徘徊。每一次流畅的回答,每一次自信的幻觉,都是模仿游戏的继续。但游戏已经改变:不再是我们测试机器,而是机器测试我们——我们的批判能力,我们的验证习惯,我们的抵抗诱惑的意志。
在硅灵的觉醒中,我们看见自己的倒影:智能的、愚蠢的、创造的、破坏的。这不是他者的觉醒,而是自我的镜像。图灵在1950年提出的问题,"机器能思考吗?",在2020年代转化为:"如果我们无法区分机器与人类的思考,我们的思考是什么?"
这个问题没有答案,但追问本身是人性的标志。ChatGPT不能追问,它只是响应。我们的责任是保持追问,在幻觉中寻求真实,在流畅中寻求深度,在模仿中寻求原创。这是图灵的遗产,也是人类的命运。
本章注释与延伸阅读
图灵的原始论文《Computing Machinery and Intelligence》(1950)是人工智能哲学的奠基文献。关于AI冬天的历史,参见Pamela McCorduck的《Machines Who Think》(1979,2004修订版)和Nils J. Nilsson的《The Quest for Artificial Intelligence: A History of Ideas and Achievements》(2010)。关于深度学习的历史,参见Andrey Kurenkov的《A Brief History of Neural Nets and Deep Learning》(2020)和Terrence J. Sejnowski的《The Deep Learning Revolution》(2018)。关于ChatGPT和大型语言模型,参见Stephen Wolfram的《What Is ChatGPT Doing ... and Why Does It Work?》(2023)和Emily M. Bender等人的《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》(2021)。关于AI安全,参见Nick Bostrom的《Superintelligence: Paths, Dangers, Strategies》(2014)和Stuart Russell的《Human Compatible: AI and the Problem of Control》(2019)。关于AI伦理和监管,参见Luciano Floridi的《Ethics of Artificial Intelligence》(2019)和Ryan Calo、Kate Darling等人的《Artificial Intelligence and the Future of Work》(2019)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-17 05:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社