思想海洋的远航分享 http://blog.sciencenet.cn/u/xying 系统科学与数学水手札记

博文

从自私走向合作——3有尊严才能和睦 精选

已有 6885 次阅读 2013-4-5 07:49 |个人分类:科普|系统分类:科普集锦| 合作, 和睦

这个有限次的重复博弈的结论有点出乎意外,与人们的直觉经验不大一样。在这论证之中,人可以精到从最后的第一万次不能吃亏算起,一脑门心思栽在最坏的情况,全然没想到变个路子还有多进账的可能,真不知道是聪明还是真傻。虽然现实中的重复博弈次数总是有限,但一般难以知道终点,也就无法从终点倒着算计。所以在现实中的人或自然活物都不见得按照这个有限次重复博弈逻辑进行。

 

朋友就说:“是呀,这笨匪BobAl和博弈双方怎么老想着最坏的情况呢?为什么不互相信任一起往好处奔呢?”

 

问题是你有什么保障能够信任对方?就拿Bob来说吧,不要说两肋插刀去保Al,就是为了自己抵赖不招。那头Al怂了。最后他出去了,可把你往里埋了十五年。Bob那个悔呀,我干嘛那么傻,指望Al也不会招!心里恨得把Al杀死一百回也不顶用了。不是说害人之心不可有,防人之心不可无吗?谈恋爱,两人花前月下甜言蜜语后,要进围城了,不还得前思后量的。因为这也是囚徒困境,没有得到真心实意,判断绝不会出错之前能跨出最后一步吗?这赌的大了,可不是过家家,差就是那么三瓜两枣的,没有个切实可信的保障,行不得那个险!

 

所以,积极的策略光有愿望还不够,必须有切实的办法,让对方是真心要合作才行。还是转回来,看看理论研究有什么结果。

 

无法知道终点的情况与折现到无限重复博弈在考量上是等价的。我们来考虑这种情况。

 

重复博弈与一次博弈重大的区别在于:局中人在乎的是多次博弈中总的收益或者平均收益,为此可以暂时牺牲一下眼前的收益。这也需要对方的配合。说教对唯利是图的人是不起作用的。为了使得对方相信有些便宜是不能占的,你必须让对方知道,当善意被认为是可欺的后果,这会得到报复,让他知道如果选择只顾眼前的策略,下一步起就要吃大亏了。让他权衡从此往后的收益,从而改变短视的做法。

 

这个带有报复威胁的策略在博弈论中叫着“触发策略(Trigger Strategy)”。最简单的触发策略是“冷酷策略(Grim Strategy)”。

 

现在看一下“冷酷策略”怎么让重复囚徒困境博弈走向合作。这个的冷酷策略是:小子,你要胆敢“背叛”我,从此你就别想有“合作”了!当然,外交和教养的艺术会把这句话包装的比较温柔一点,使得比较情绪化的人好接受一些,但意思是一样的。

 

说到这里,淑女不爱听了:“什么报复威胁,冷酷策略呀。文雅的人从来不用这粗鲁的一套!”

 

“谁昨天还对男朋友说:‘要是还同那妖精来往,就再也不理你了’,这也不正是冷酷策略吗?”另外,淑女自己可能很温柔,你敢坑了她,也许就触发了她家人的冷酷策略的报复。

 

在这个冷酷策略下,对方都不会愿意破坏双方一直合作的大好局面。为什么呢?假如你想占便宜,下一步要背叛,就会再想想:触发了报复的冷酷策略,再下一步往后,我都要面对着对方“背叛”的局面了,我以后不论怎么做,这个收益可要比大家都合作来的少,几步下来,那一步占便宜的好处都抵不上这样减少了。所以还是不变的好。这是每一个精于计算的人都能想明白的事。至于没有这个思考能力的微生物,这个威慑则是在进化过程中,经过残酷的自然淘汰,形成了某种模式识别的本能。因此重复囚徒困境博弈可以在冷酷策略威慑下保持合作。

 

这便是重复博弈中“无名氏定理(theFolk Theorem)”证明的基本思路。

 

光有善意是不够的,能报复才能维护尊严,威胁才能带来和睦,这对善良人的想法真是一个很大的讽刺,但也十分现实。中国的“反分裂法”就是应用这个冷酷策略来应对台海博弈,以阻吓可能走向双输的对抗。

 

在这里有一个关键是:这个威胁必须是“可信的(Credible)”才能吓着对方。对唯利是图的博弈者,没有实现策略能力的问题,只要这个策略在任何情况下都不会让他吃亏,就有可能去做,这个威胁也就是可信的了。这时对手在行动时就要认真地对待这个威胁,掂量一下是不是值得改变既定的默契而遭到报复了。

 

1996年台海危机时,李登辉得悉大陆军事演习用的是空包弹后,这个威胁马上就是不可信了。这个军演透露出来的信息不仅没有起到冷酷策略的作用,反而让对方放心地用对抗来占你要合作的便宜。

 

让我们验证一下真正的冷酷策略的可信性。当我遭到背叛启动了这个报复策略以后,不管你是什么策略为都报之以“背叛”。如果这时你是“背叛”,我也是“背叛”,针尖对麦芒,自然比傻乎乎的还再来个“合作”强。如果你这时悔改了要“合作”,晚了!我的“背叛”就占了你的便宜。所以无论你怎么着,我这个冷酷策略与其他可能的选择来比都不亏。这个策略是可信的了。

 

在这几年朝核问题就面临重复“囚徒困境”的博弈,双方都软下来谈判,是都在维持“合作”的局面。北朝鲜一次次的惹事,一次次的面临“囚徒困境”的博弈,而都能“合作”谈判是因为双方的“冷酷策略”都是可信的。美国的不用说了。金二虽然实力不如,但全军全民一个声音,说要不让我搞核武器就和你打,炸平了也要拖个垫脚的,这敢与你同归于尽的威胁也是可信的。这威胁要搁在日本或其他不那么”流氓“的国家说,可信度就差了,也就不会那么老“合作”谈判了。当然,在现实中的威胁可信性,会随着实力,决心,及其他选择的出现而改变,整个局面会随之而改变。耍无赖到人人都烦,到没有合作价值时,就剩下欠扁了,这是局中人不可不察的。金三这次威胁能否善了,就看各方怎么看这合作的价值了。

 

野蛮女友要是每天都吃醋,砸锅摔碗的,总有一天继续合作的价值不高了,她的“冷酷策略”怕就不灵了。

 

使用报复的先决条件是能提供双方都能得利的合作意愿,当合作的价值不足以克服对抗时,这个报复维持的就不是具有善意的尊严,而不会得到尊重。

 

“无名氏定理”,有时翻译为“民间定理”或者“俗定理”,其实是一组在重复博弈中寻求可行解决方案(Solution Concept)的定理,有着不同的版本。它的基本思想早在50年代末便不加证明地散见在一些论文中,后来大家发现这个思想对重复博弈非常重要。在1971Friedman正式在他的论文中用了这个名字。被大家通常引述的Rubinstein 1979年的证明便沿用上述的思路。

 

重复博弈从某一步开始往后的一系列博弈叫做它的“子博弈”,如果各博弈方的某个策略组合在所有子博弈都构成纳什均衡,那么这个策略组合称为“子博弈完美纳什均衡”。重复博弈一旦进入子博弈完美纳什均衡状态,从利益角度也就难以单方面改变了。谁变了就是不吃亏也没好处。这类比于单次博弈中的纳什均衡状态。

 

“无名氏定理”其中一个比较含糊通俗的表述是:在无限次重复博弈中,如果局中人对未来足够重视,那么,任何程度的合作都可以通过一个特定的子博弈完美纳什均衡得到。这里“合作程度“定义为整个博弈中合作出现的频率。这个博弈解能够存在的关键,是具备有报复性的触发策略。

 

这使得重复博弈要比其单一博弈要丰富多彩得多。我们以后有兴趣时再专题讨论。

 

(待续)

 



https://blog.sciencenet.cn/blog-826653-677040.html

上一篇:从自私走向合作——2博弈的均衡
下一篇:从自私走向合作——4宽容比冷酷好

21 张天蓉 刘全慧 李伟钢 徐晓 陈安 王浩 彭真明 俞强 邹斌 曹建军 王恪铭 刘小鹏 徐大彬 王国强 陈冬生 唐茂 霍艾伦 何巧巧 yueliang002 htli sowhathen

该博文允许注册用户评论 请点击登录 评论 (26 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-6 19:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部