博文

浅谈《爱犯错的智能体》创作动机

已有 6120 次阅读 2023-10-20 09:26 |系统分类:科普集锦

2023年，上海春季高考语文卷阅读理解题第一题，16分，内容包括分析《爱犯错智能体》的序，来推断哪些犯错不会被收录书中，并结合序言来分析行文思路。这里我从作者的角度，写了一些关于我创作本书的动机，希望能有所帮助。

内容概要：

1.您选择人工智能这个领域进行科普创作的动机是什么？

2.将书名取为《爱犯错的智能体》的用意是什么？

3.本书围绕人工智能领域科普了大量的知识点，其编排逻辑和布局是什么？出于怎样的考量作出了这样的编排？

4.您最希望本书能够为读者带来的价值是什么？

5.对前沿科技的讲解如何在保证严谨的同时增强可读性？

1.您选择人工智能这个领域进行科普创作的动机是什么？

随着深度学习的兴起，人工智能在众多领域形成了突破，并有了实用级的应用，如人脸识别系统已经布置于高铁、机场；2016年AlphaGo战胜了围棋世界冠军。2023年，OpenAI公司的大语言模型ChatGPT在聊天能力变得更像人类，Midjourney公司的绘画软件已经能画得与人类媲美，Meta公司的分割任意模型SAM几乎解决了长期困扰图像处理领域科研人员的图像分割难题。一时间，人们担心人工智能是否会超越人类。而这种担忧从AlphaGo开始，似乎有越演越烈的趋势。另外，人工智能本身的研究发展在往大模型、大数据、大算力的方向快速前进。由于人类经历过两个人工智能低谷，每个低谷的前夜都是人工智能的快速发展。所以，我们不禁要思考，人工智能的方向是否准确？人工智能还有哪些难问题尚未解决？

实际上，这些疑虑在大模型盛行之前就已经出现。

2018年，在《科技日报》的一篇采访报道中我利用《射雕英雄传》里周伯通的左右互博术科普了生成对抗网的原理。随后不久，又用长寿在个性和统计上的差异分析了深度网络预测性能卓越的原因。在此之后，我又在“科学网”撰写了一系列关于现有人工智能难以解决的问题的文章。根据2018年以来发表在科学网的系列科普文章，我汇集成册后，2019年于清华大学出版社出版《爱犯错的智能体》一书。本书的目的是希望能利用一线科研工作者的经验，科普人工智能的现状、不足及思考，也期望它能激发相关科研工作者和人工智能爱好者的兴趣。

2. 将书名取为《爱犯错的智能体》的用意是什么？

取名《爱犯错的智能体》的用意，与人工智能的预测性能近年表现优异有关，尤其是大数据、大模型、大算力基本成为提升各种人工智能相关任务预测能力的共识的情况下。然而，预测性能只反映了人工智能研究的其中一个目标，并非全部。那么，通过对预测性能表现强的能力的反向思考，作者发现预测性能与可解释性之间存在矛盾。

如果需要进一步提升预测性能，那么就不必考虑统计意义上的平均预测性能，只关注个体的优异表现同样可以达到目的。但如果过分关注个性，就会损失统计意义，而统计意义却是保证可解释性的根源。因此，预测性能与可解释性之间必然存在矛盾。要保证鱼与熊掌兼得，则需要在两者之间进行折衷。再进一步思考，在人工智能做得异常好的应用上，人类实际上达不到如此好的性能，甚至容易犯错。比如人脸识别，人类是不可能像人工智能一样能记住上千万甚至上亿的人脸。围棋也是，人类一生也不可能对弈3000万棋局，但机器可以。

但为什么反而见不到人工智能能全方位超越人类呢？这自然引出一个问题，人类的犯错的意义在哪里？是否可以减少犯错，来获得与人工智能一样强的预测能力？从作者的理解来看，答案是否定的，正如人类常说的话一样，失败是成功之母。有了犯错，才有利于智能的演化。

因此，本书取名为《爱犯错的智能体》，正是希望能把各种犯错的机制与智能的关系找出来，并期望读者能从中发现未来能促进人工智能发展的新线索。除此以外，它的英文名明确表明了这层含意，即Errors Favor Intelligent Being，直译就是“犯错有利于智能”。

3. 本书围绕人工智能领域科普了大量的知识点，其编排逻辑和布局是什么？出于怎样的考量作出了这样的编排？

要分析人的犯错的机理，可以从多个层面展开。但与人工智能最直接相关的，是人类的感官。其中，视觉是我们和多数动物探索世界的主要感觉器官，据说人类对环境的感知80%以上源自视觉。但正因为如此，它又是人类最容易形成错误感知的地方，也是存在大量未解问题的地方。比如视觉倒像问题，在什么时候、什么地方将眼睛看到的目标，通过眼睛内晶状体的光学凸透镜形成的倒像纠正成正像。比如视觉恒常性引起的对衣服颜色的判断及同时对比现象，比如视觉中枢对目标的感知、记忆模型的不同理解，比如看不见的萨摩耶以及斑点狗。从这些问题中，通过搜索文献，我总结了大量的犯错机制，以及它可能隐含的、与人工智能相关的科学问题，如流形学习、格式塔心理学、原型说等等。

其次，人容易产生犯错的地方在听觉。比如麦格克效应，是人同时利用视觉和听觉来帮助判断声音内容时的有效机制。但当视觉被误导时，听觉也有可能被同时误导。不仅如此，由于语音发音的有限性，也会导致错听或误读。同时，人类能在鸡尾酒会中轻松分辨出想要听的人的声音，反而机器很困难。这种鸡尾酒会问题也引发了盲源分离的研究。

第三，在自然语言理解中，也存在大量有趣的语言现象，如回文诗，看字形猜诗词等。语言中蕴育了有趣的科学问题，如学习的次序、语言的多义性、局部与整体认知等等。

另外，人类的梦境、顿悟与情感，群体智能等都有值得挖掘的内容。

概言之，本书的编排是从视觉开始，再过渡到听觉、认知、群体认知等高级能力。希望通过分析各个层面，可能出现的犯错，来让读者更直观的了解人工智能。

4. 您最希望本书能够为读者带来的价值是什么？

《爱犯错的智能体》是一本科普书。从我对科普书浅薄的理解，以往的科普主要是定位于传授已知，即将已经成为事实的知识传授给大众。但作为一线科学工作者，我认为人工智能仍存在的大量问题和未曾探索过的领域更值得关注，因为它一方面可以激动读者的主动思考，另一方面也能让读者有一个辩证的思考，不是一味的以为人工智能无所不能，而能更为科学地看待人工智能的发展情况。

从这个角度出发，我在撰写本书时引入了很多个人的思考，如总结部分，我提出了平衡智能的观点。我也期望读者能从中发现一些有趣的现象，甚至迸发出新的想法、观点。我还期望一些年青的读者，能够通过阅读本书，激发起对人工智能的兴趣，以至于未来有可能走上研究人工智能的科研道路。

如果今后真有哪位人工智能科研人员，说是小时候因为看了《爱犯错的智能体》，才走上本领域的研究道路的，那么，这本书就物超所值了。而如果从更一般的角度来看，如果本书能让普通大众更为清醒的了解人工智能的现状、局限及可能的未来发展，那也能对提高全民科学素养起到一定的帮助作用。

5. 对前沿科技的讲解如何在保证严谨的同时增强可读性？

作为科研人员，不少会担心自己讲错科普。以前有个笑话，说科研人员如果在电视上讲错一句话，就会得罪一批同行朋友。所以，做科普也是得非常小心，尤其不能把一些常识性的错误带给读者。

除此以外，也必须避免将一些伪科学的知识传递给读者。更有意义的是，一线科研工作者可以将更为前沿科技的进展介绍给读者。

然而，这里需要注意的是，如何增强科普的可读性。现今的科研环境，科研方向已经非常细分。多数科研工作者熟悉的往往是自己钻研的具体研究方向，科技论文的写作也比较八股文化。这两点对于科普来说，实际上会造成不小的障碍。因为科普常需要通过大众熟悉的事物来侧面了解前沿科技，但如果科研人员没有相对宽广的知识面，那很有可能不知道如何下手，容易把科普写成大家看不懂的科技论文。

另外，人工智能里的很多内容是有严格的公式来表述的。但霍金说过，科普里多一个公式，就少一半读者。所以，本书中，我将需要公式表述的内容，通过借用生活中常见的现象，直观解释了。这样，也能有利于大众的理解和对知识的消化吸收。

第三，科普需要生动有趣活沷。但八股科技论文反而是排斥这样的写法，应该会导致论文过份主观化。而且长期只写科技论文，也会导致写作文的能力下降。

在本书中，我通过大量的比拟来介绍一些相对困难的人工智能问题。比如自举，是机器学习的常用算法之一。我就讲一个人骑马陷入沼泽中，通过用手抓住自己头发将自己和马一起拔出沼泽的故事，来让读者形象理解其中的道理。再比如个性与共性在预测能力上的差异，我通过116岁长寿老奶奶喝可乐的故事，来科普深度学习有可能是能过个性化的模型训练来获得优异的性能。

不仅如此，我在文字组织中，也适当地引入了幽默感，以便读者能更为轻松愉快地阅读本书。这样的例子在书中应该不少。

值得指出的是，人工智能多数成果缘于国外。但从国外的角度来介绍，大众可能会有一定的疏远感。为了增强中国特色，拉近读者的距离感，我也引入了不少中国元素的故事，比如利用林语堂的《口技》来介绍人工智能里音源分离的困难。

而为了增强行文的逻辑性，每篇文章的写作都是在长思以后才完成的，并非是为了凑字数而写。有的时候，因为找不到写作的冲动或灵感，我会去室外慢跑，期望通过多巴胺的释放，来获得好的构思。幸运地是，这种策略似乎是凑效的。

总的来说，《爱犯错的智能体》是我通过一个又一个的自我设问，再根据问题进行相应的人工智能前沿进展的调研，并通过科普化的构思和结合中国特色元素后完成的。该书中隐含了大量人工智能里悬而未决的科学问题，等待有志于人工智能的读者去探索和解决。该书中包含的人工智能知识点，我自认为是相当密集的。尽管书的页数并不多，但读者通过本书的阅读，可以充分了解人工智能的全貌。