博文

“囚徒困境”中的老鼠精选

已有 7683 次阅读 2010-4-2 04:40 |个人分类:科普大众|系统分类:科普集锦| 囚徒困境

人们之间互惠合作（reciprocity-based cooperation）是人类在漫长进化过程中形成的。也许，有人会认为互惠合作是人类优于其他动物的一个显著特征。其实，陆续有许多的关于动物间也存在这种现象的报道，比如，吸血蝙蝠（Vampire Bats），双色树燕(tree Swallows)，刺鱼(Stickleback)，黑斑羚（impala）, 兰鸦（blue jays）, 绢毛猴（cotton-top tamarin monkey）, 红翼背鸟（red-winged backbirds）和斑驳鷒科食蝇鸟（pied flycathcher）等。但是，无论是实验室条件和自然环境下，这些动物间的互惠合作现象的真实性存在着很多争议。

其中涉及的机制认为有两种，一种强调亲社会倾向（Pro-social propencity），利他行为能使在自己在帮助对方后得到回报，所以导致相互合作；另一种从经济学的角度，认为动物间的合作是因为自身可以得到立时的好处或者未来会受益。这两种相反的机制都能在不同程度上解释合作现象的出现。事实上，人类之间的合作是上述两个方面的共同作用的结果。

博弈论（Game theory）是公认的研究社会行为，特别是不同个体间基于经济学角度相互合作行为的有效工具。方锦清老师的博文《有趣味的博弈论模型》（http://www.sciencenet.cn/m/user_content.aspx?id=244598）中说“博弈论，也称对策论，它是模拟和分析理性的个体在利益冲突环境下相互作用的形式、决策及其均衡理论，研究个体之间行为的相互影响和相互作用规律，它可以描述现实生活中参与者面对有限资源的合作与竞争行为。”。

其中的囚徒困境（prisoner's dilemma，PD）是博弈论中具代表性的例子，反映个人最佳选择并非团体最佳选择。但是多次重复的囚徒困境结果和单次的不会一样。在多次重复的囚徒困境（Iterated PD, iPD）中，每个参与者都有机会去“惩罚”另一个参与者前一回合的背叛或不合作行为。对手以牙还牙的惩罚会压制欺骗或者背叛的动机，最终可能导向合作双赢的结果。

为了使大家对于囚徒困境有进一步的了解，引述百度百科一段解释：

　　1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

　　警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

　　若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

　　若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

　　若二人都互相检举（互相“背叛”），则二人同样判监2年。

　　用表格概述如下：

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式: T>R>P>S

以人类为对象的囚徒困境试验已经有无数报道，密西根大学政治学教授Axelrod先生在其代表作《合作的进化》（The Evolution of Cooperation），探讨了合作演化的内在机制。Axelrod教授为此以重复进行的囚徒困境博弈为模型，在全球范围内组织了一次策略竞赛。参赛者通过编写计算机程序来完成囚徒困境博弈，通过最终的收益来确定优胜的策略。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。赢得了比赛的程序是所有参赛程序中最简单的，据说只包含了四行BASIC语言，它采取的策略是“以牙还牙”（tit for tat)。即根据对方合作或背叛，调整自己的策略，对方合作即在下一轮合作，对方背叛即在下一轮背叛。

那老鼠面对囚徒困境会怎么选择呢？来自葡萄牙的科学家设计一组很巧妙的试验，观察大鼠面对这种困境的选择，他们是用食物作为奖赏，掐夹尾巴（tail pinch)作为惩罚，具体就是：T(背叛诱惑)=6 颗食物，R（合作报酬）=4颗食物，P（背叛惩罚）=1次夹尾，S（受骗支付）=3次夹尾。结果显示，大鼠能够区别不同的奖赏和惩罚，第一次合作的比例比较低，从第二次开始，合作的比例很快增加到63％，并且一直可以维持到10次。合作远远超过背叛。更为惊讶的是，老鼠也会采取人类相似的“以牙还牙”策略，如果对方多次选择背叛，合作的比例会很快下降。试验是按照T>R>P>S设计的，自己背叛，对方合作，自己利益最大，反过来，对方的损失最大；双方合作次之，利益均等；双方都背叛，都受惩罚。其实，惩罚和奖赏，好多动物都可以区分，这个试验最大的发现是大鼠可以区别这些细微的差异，6颗食物和4颗，一次夹尾和3次，并且能调整自己的策略。

文章涉及内容很多，我对博弈论不是很熟悉，有兴趣的朋友可以阅读文章：

Viana, D., Gordo, I., Sucena, ?., & Moita, M. (2010) Cognitive and Motivational Requirements for the Emergence of Cooperation in a Rat Social Game. PLoS ONE, 5(1).

转载本文请联系原作者获取授权，同时请注明本文来自焦宏远科学网博客。
链接地址：https://blog.sciencenet.cn/blog-404145-308199.html

上一篇：友情提醒：今天是愚人节
下一篇：google 现有新名字：Topeka

收藏 IP: .*| 热度|

当前推荐数：11 推荐人：王德华 赵凤光 曹聪 侯吉旋 苏红 柳东阳 张天翼 鲍海飞 唐常杰 左正伟 yinglu

发表评论评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

焦宏远

扫一扫，分享此博文

记忆寻踪分享 http://blog.sciencenet.cn/u/nevergu Brain and Mind

博文

“囚徒困境”中的老鼠精选

当前推荐数：11 推荐人：王德华 赵凤光 曹聪 侯吉旋 苏红 柳东阳 张天翼 鲍海飞 唐常杰 左正伟 yinglu

发表评论评论 (1 个评论)

焦宏远

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

记忆寻踪分享 http://blog.sciencenet.cn/u/nevergu Brain and Mind

博文

“囚徒困境”中的老鼠 精选

当前推荐数：11 推荐人： 王德华 赵凤光 曹聪 侯吉旋 苏红 柳东阳 张天翼 鲍海飞 唐常杰 左正伟 yinglu

发表评论 评论 (1 个评论)

焦宏远

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

“囚徒困境”中的老鼠精选

当前推荐数：11 推荐人：王德华赵凤光曹聪侯吉旋苏红柳东阳张天翼鲍海飞唐常杰左正伟 yinglu

发表评论评论 (1 个评论)