博文

[转载]梦遇兵圣，孙子四字点评囚徒困境

已有 2351 次阅读 2021-11-3 20:45 |个人分类:数学研究|系统分类:观点评述|文章来源:转载

因杨六省老师之邀，现将其新作（纯属杨六省老师个人观点）转载于下，欢迎各位高人进行点评或者直接与杨六省老师联系进行交流。

梦遇兵圣，孙子四字点评囚徒困境

杨六省

yangls728@163.com

囚徒困境是个著名的世界难题。自1950年被提出以来，70多年过去了，这个难题迄今仍未得到解决。

故事情节是这样的：有两名嫌犯A和B被警方抓获，被分别关押在不同的房间里接受警方的盘问。他们被告知：如果一人认罪，另一人不认罪，认罪者可获释，不认罪者将获刑10年；如果两人都认罪，他们将均获刑5年；如果两人都不认罪，他们将均获刑1年。为便于分析和比较，我们用下面的表格来表示上述条款。

两人各会有怎样的盘算呢？

嫌犯A会这样想：假设B选择认罪，我若不认罪，将获刑10年，若认罪，只获刑5年，当然选择认罪有利；假设B选择不认罪，我若也不认罪，将获刑1年，我若认罪，则可获释，显然还是认罪有利。总之，不管对方选择认罪还是不认罪，认罪对我都是最佳选择。

同样，嫌犯B的盘算结果也是认为，选择认罪是最佳方案。

然而，由上述表格容易看出，两人都选择不认罪要好于两人都选择认罪，因为对前者而言，两人都只获刑1年，对后者而言，两人都获刑是5年。

上述这个与客观事实（指两个囚徒都应该选择不认罪的策略）相矛盾的推理结论（指两个囚徒都应该选择认罪的策略），就是著名的囚徒困境，也叫囚徒困境悖论。

日有所思夜有所梦。笔者曾经作过一个梦，梦中遇见兵圣孙子。我向孙子请教囚徒困境难题。孙子听后，面露不悦之色，叹息道：“甚矣！”然后稍停片刻，说出四个字：“子孙肤浅！”

最近，笔者在读一本中译本悖论书。书作者在对囚徒困境问题的行为合理性做过分析之后写道：“合理的行动在某些情境中反倒导致了更坏的后果”；“合理性并不是关于如何行动的最好的指引”；……笔者的质疑是：理论如果不能为实践服务，理论研究的价值何在？诺奖得主丁肇中说——“再好的理论，与实验不符合，理论就是不存在的。理论不能推翻实验，实验可以推翻理论。”是的，实践是检验真理的唯一标准。当理论与实践发生冲突时，我们应该否定理论。但遗憾的是，70多年来，关于囚徒困境问题，学界不是设法修正理论，而是一直在为错误的理论（推理）进行辩护！

博弈论和经济学界普遍认为，如果囚徒A选择不认罪的策略，那么，囚徒B选择认罪策略是一种理性行为。笔者认为，这是一种认识错误。下面将给出解释。

孙子兵法曰：“知己知彼百战不殆。”大凡每遇战事，双方事先都会进行实战推演（思想实验）。事实上，这就是双方在下一盘公开棋，不过，特别规则是可以悔棋。例如，囚徒A告诉囚徒B，他打算不认罪。B说，那我选择认罪。这时，A说，我悔棋，我将不认罪改为认罪（注：这时，B决定选择认罪策略的推理前提——A选择不认罪——已不复存在了，矛盾！这表明，如果囚徒A不认罪，囚徒B选择认罪策略不是理性行为）。这时，双方有了共识，即两人都认罪不如两人都不认罪，于是，双方都决定悔棋，都把认罪改为不认罪，换一种说法，如果囚徒A不认罪，囚徒B选择不认罪是理性行为。

所谓博弈，通俗的讲，就是你来我往，相互过招。因此，互动是博弈活动的灵魂和要素。假设囚徒A选择不认罪的策略，接下来，如果只看一步的话，那么，囚徒B的合理行为就是选择认罪的策略。再接下来呢，有两种不同的做法。第一种做法是，允许囚徒A还手再出招——这时，囚徒A可以以改变策略的做法对囚徒B进行威胁，温和的说法是晓之以理，迫使或说是规劝其权衡利弊，趁早打消认罪念头。想必囚徒B也是个理性明白人，他不可能软硬不吃油盐不进的。因此，囚徒B一定能够认识到，在假设囚徒A选择不认罪策略的情况下，选择不认罪的策略才是自己的理性行为。第二种做法是，不允许囚徒A还手再出招，这就相当于囚徒A第一次出招后，我们把他的手脚捆绑了起来，任由囚徒B出招。遗憾的是，就是这种独角戏，竟被人们视为是两个囚徒在博弈！不允许对方还手，也叫博弈，真是今古奇论！思考博弈，却不曾想过对方还会还手，这真是现代版的纸上谈兵啊！无怪乎梦中的兵圣发出叹息——“子孙肤浅！”听到这句话，真是羞煞了我等不智炎黄后世！愧对先哲啊！我们几乎人人都会把先哲的“知己知彼百战不殆”挂在口边，但不求甚解啊！没有认真贯彻啊！

想想看，我们丢掉了互动这个博弈活动的灵魂和要素，何以能够讨论博弈中行为的合理性呢？怎能得到正确的结论呢？为了更明白起见，我们举一个更具体的例子。两个核大国，一国假设对方不会使用核武器，于是，它认为自己对对方实施核打击最为有利。但是，这样的推理难道不幼稚可笑吗？你有核弹，对方也有，而且对方一定备有能够进行核报复的预案，也即你的第一波核打击不可能摧毁对方的全部核设施，在这种情况下，对方一定会进行核报复！权衡利弊，结论是，假设对方不使用核武器，那么，我也应该选择不使用核武器的策略——这就是两个核大国虽然都有核武器，但谁都不敢轻易使用的原因所在。

关于纳什均衡概念，现今的文献都把它解释成是这样的策略组合：如果其他人的策略都不改变，我改变我的策略，我不会有更好的结果。这个定义的严重缺陷是，它排斥博弈论最为核心的要素——互动，这是纳什工作的一大败笔！笔者于2019-1-17在人大经济论坛上发过一个帖子，题目叫“纳什获得诺奖是尴尬的”（已有7000多浏览量）。笔者在该帖中写道：“纳什因纳什均衡获得1994年诺贝尔经济学奖，这绝对是一次失败的评奖，理由是，纳什均衡在理论上存在严重缺陷，因而导致诸多混乱的发生。遗憾的是，纳什获奖已经过去整整四分之一个世纪，原本发生的诸多混乱依然存在，并且人们还在为这些错误进行辩护，例如，说什么‘纳什均衡挑战了亚当斯密的看不见的手原理’，等等。笔者在想，有谁证明了亚当斯密的原理是错的？……”

纳什均衡概念有刻舟求剑之嫌！例如，在囚徒困境问题中，对于（彼不认罪，我不认罪）而言，我把不认罪策略改为认罪策略会引起彼也把不认罪策略改为认罪策略，这是逻辑的必然，后者如同前者的影子一样不会分离。但当人们在套用纳什均衡定义中的“如果其他人的策略都不改变”这一条款时，却又视彼的不认罪策略不变，这难道不是刻舟求剑吗？说一个囚徒认罪另一个不认罪对前者有利，这种说法本身就是对博弈论互动要素的否定，既不合理，又不公平，因为它剥夺了后者为争取更佳利益与前者继续过招（博弈）的权利！上述说法就等同于比赛尚未结束，就宣布谁是胜利者。事实上，只有双方玩成平局，问题才会平息，换言之，只有纳什均衡才能作为论证的依据，相反，一人认罪另一人不认罪就是一个博弈过程尚未完成的策略组合，因为其中的博弈动力仍在鼓噪，只有当这种博弈动力被完全释放（每个参与人的心里都没有了“不平之气”，都心安理得了），我们才能应用这种稳定性结论参与推理。看来，应该谨慎的把博弈过程尚未完成的策略组合与博弈过程已经完成的策略组合（即纳什均衡）区分看来，例如，一人认罪另一人不认罪属于前者，而两人都认罪和两人都不认罪属于后者。

纳什均衡概念反映的是一种稳定性，但根据纳什均衡概念的定义，（彼不认罪，我不认罪）又不是纳什均衡，这就矛盾了，因为最优解怎么会不具有稳定性呢？难道还有比它更好的方案不成？笔者对纳什均衡概念下的定义是：如果其他任何人的策略都不改变，我无需或不能改变我的策略，这样的策略组合就叫做纳什均衡。新定义中的“无需”一词的内涵是，我改变了我的策略，但收益没有变化，所以我不会有改变策略的动机。新定义中的“不能”一词的内涵，包括两层意思：第一层意思是旧定义中已经包含的，指的是我改变了我的策略，但收益更差了，所以我不会有改变策略的动机；第二层意思是旧定义中没有包含的，指的是我改变了我的策略会导致逻辑矛盾，即“其他任何人的策略都不改变”这一条件不能满足，所以我不会有改变策略的动机。以上3 条，是纳什均衡概念完整的内涵（注：在囚徒困境博弈中，两人都认罪是纳什均衡这一结论，既可以应用旧定义证明，也可以应用新定义证明）。现今文献中的纳什均衡概念的定义，由于没有包含第3条内涵内容，所以，囚徒的困境就无法得到解决。（参见：杨六省.完整揭示纳什均衡概念的内涵及解决囚徒的困境[J].应用数学进展.2018，7（10））

纳什均衡概念新定义仍保留了“如果其他人的策略都不改变”这一条款，是否会排斥博弈论的互动要素呢？因为对于（彼不认罪，我不认罪）而言，当我改变不认罪策略时，彼也会改变不认罪策略，但新定义中的“如果其他人的策略都不改变”这一条款与此不相容。事实上，这种想法是不成立的，因为当我的策略改为认罪时，彼也会把策略改为认罪，但我发现（彼认罪，我认罪）并不比（彼不认罪，我不认罪）更好，因此，如果彼的不认罪策略不改变，我不能改变我的不认罪策略。据此，可以看出，新定义与旧定义的不同之处在于，新定义不像旧定义那样会否定互动本身，它所否定的只是引起互动的那个不合理的假设。笔者认为，（彼认罪，我认罪）只是一个平凡的纳什均衡，因为它不是通过双方博弈的产物，但是，（彼不认罪，我不认罪）则不同，它是一个真正体现了博弈论互动要素的纳什均衡。

根据新定义，在囚徒困境问题中，对于（彼不认罪，我不认罪）而言，我之动，必引起彼之动，这样，互动就展开了，这才是博弈的真谛！这时，我们会欣赏到其中一方博弈手段的精彩——威胁和利诱并用；也会感受到另一方理解和默契的理性人素质；会看到他们虽然身居两处不能相见，但对逻辑必然性的共同领悟成了两人能够进行心灵交流的桥梁；会看到他们虽是竞争对手，但“君子慎独，不欺暗室”的高贵品质与他们理性人的光荣称号完全匹配！于是，在追求自我利益的同时，亚当斯密的看不见的利他之手已在无形中微妙显现！

也许有人会问，两个囚徒都选择不认罪是最优方案，但是，如果其中的一个囚徒（也可能是两个囚徒）这样想：我知道对方会选择不认罪的策略，为了获得最大利益，我选择认罪策略岂不是更好？碰到这种情况，怎么办？该如何解释？我们说，一定要把实际问题与纯理论问题（假设参与者都是理性人）区分开来。在实践中，这种情况的确可能发生，但在我们关于囚徒博弈这个纯理论问题的讨论中，你是不可以应用“兵不厌诈”这一战术的，你也不用担心对方会应用它，因为对于所有的参与者而言，应用“兵不厌诈”战术是不合法的。博弈论假定所有参与人都是理性人。因此，理性人不会有上述投机想法，有上述投机想法的人不会是理性人，因为有意违反逻辑必然性和博弈论基本假设前提的人是不配称作理性人的。博弈论的假设前提包含每个参与者都以追求利益最大化为目标，因此，你不可以为了自己的权利而排斥他人的权利，这就是我们的先贤所说的一条黄金法则：“己所不欲，勿施于人。”假设你是一个理性人，你知道自己应该选择并决定选择不认罪策略，你会同意对方选择认罪策略吗？当然不会！这就是“己所不欲”。反过来，假设你知道对方会选择不认罪策略，你会同意自己选择认罪策略吗？如果会，这就是“己所不欲，而施于人。”中国有句古话，叫做“君子慎独，不欺暗室”。这句话的意思是，真正的君子在任何情况下，哪怕无人监督，他都会依道行事。既然我们已经假设了两个囚徒都是理性人（这是博弈论的假设前提），却又设想着他们会在私下里做明知是不合理的事情，这难道不自相矛盾吗？我们为什么要自相矛盾呢？

转载本文请联系原作者获取授权，同时请注明本文来自诸平科学网博客。
链接地址：https://blog.sciencenet.cn/blog-212210-1310791.html

上一篇：物理学家发现粒子是如何自我组装的
下一篇：[转载]西电段宝岩院士牵头项目获国家科技进步一等奖

收藏 IP: 61.134.23.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

诸平

扫一扫，分享此博文

路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学，勇于探索，苦海无涯，愿作小舟。

博文

[转载]梦遇兵圣，孙子四字点评囚徒困境

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

诸平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

路漫漫其修远兮分享 http://blog.sciencenet.cn/u/zhpd55 追求科学，勇于探索，苦海无涯，愿作小舟。

博文

[转载]梦遇兵圣，孙子四字点评囚徒困境

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

诸平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)