思想海洋的远航分享 http://blog.sciencenet.cn/u/xying 系统科学与数学水手札记

博文

从自私走向合作——6善良的回报 精选

已有 7218 次阅读 2013-4-12 07:27 |个人分类:科普|系统分类:科普集锦| 合作, 博弈

博弈理论中的无名氏定理毕竟只是证明了:无穷多种合作的均衡可以在重复囚犯困境博弈中,由理性自利的人作出来。但进入这个合作均衡的第一步必须至少有一方能够忍让牺牲才有可能开始。那么在现实中这合作真的能够做到吗?低等的生物和分子水平的个体并没有多少智力,更谈不上道德,它们能够出现合作吗?


70年代密知根大学教授Robert Axelrod做一个实验,他邀请各个大学心理学,经济学,政治学,数学和社会学专家,在囚徒困境的游戏规则下,各自提供认为最能够取胜策略的程序,进行电脑程序锦标赛。两两程序捉对比赛5次,每次进行200步重复博弈。比赛结果发现,在15个程序中前8名积分最高的优胜者都是善良的,即从不首先背叛,而其他则都不是。在所有善良的程序中,得分最低的是最不宽容的冷酷策略,一但受背叛绝不谅解。


小人都不发达,善良和宽容都得到了回报。这真是善有善报呀!冠军为多伦多大学心理学教授Anatol Rapoport得到。他的程序最简单,只有5条Fortran指令:第一次合作,以后就照抄上一回合对手的策略。这就是TFT呀!Axelrod十分惊异这个结果,又组织了一次比赛,有62个参赛加一个随机程序。结果还是它得标。单纯的善良容易受到欺负,进取十足的过于咄咄逼人,老谋深算精于分析都不如这个简单的TFT能够因合作而受益。TFT与每个对手对阵,都没胜过对方,最好的也不过是平局,但它所有的对阵的收益加起来总分最高。不求胜过对方,结果活得最滋润,这才是真正的智慧所在!


这个电脑仿真实验给人们很多启示。


首先,无论是人际关系,公司竞争,生物生存的博弈,真正的目的不是胜过对方而应该是自身的总收益。因此自私明智的策略应该是最大地促进合作而不贪图短视的近利,TFT没有胜过任何对手但得了与所有人对阵后最高的积分。


其次,TFT的策略以合作开始是善意的,受侵犯会报复是尊严的,对方悔改就原谅是宽容的,程序简单是明朗的。这善意,尊严,宽容和明朗的特点也是人们熟知的最好的处世之道。


这个以合作为开始以后照抄对方行为的TFT策略是如此的简单,不需要多么高级的智力就能实现,任何生物以致分子团都能于生俱有。这就解释了为什么在自然界合作能够如此广泛地存在。


“等等!你前面推理说的是:TFT软硬兼施,弄得精于算计的小人都要合作。后面实验说的是:TFT与其他各种死不改悔的策略过招,结果积分最高。这哪儿跟哪儿呀,怎么闹到一块了?”


“后面实验的结果说明:TFT和其他策略竞争时有生存的优势。而它是靠合作的成果来取胜的。前面的推理是说:要是对手足够聪明,经过一番推理后,他会选择与你合作。要是对手不够聪明或者没有智力,那采用其他策略时就会遭到实验一样的结果,终将被自然淘汰。聪明的人在头脑里过了一遍各种可能,是不需要碰了壁才想明白的。博弈的均衡是自然淘汰后的结果,或是聪明人能想明白的状态。”


“那么,像TFT和冷酷策略,要宣示出来让对手知道吗?”


“不说出来,策略的优势表现在博弈的结果上。就像上面实验一样。但这是血淋淋的战后统计结果。宣示出来,策略的优势表现在影响对方聪明人的决策上,防止误判,达到不战而屈人之兵的结果。”


这里几个最典型策略的对阵情形,不需要计算机模拟实验,也还是很容易想象的。这也是人们在生活中经常遇到的。


一律不合作好战的恶人AllD与同类交手,则互斗,双方都得了次差的收益。与TFT和冷酷策略(Grim)对阵也基本如此。但遇上对方怀有善意伸手合作的都能占了便宜,收获大。对方善意越多,恶人得分越多。所以恶人得势是仰赖于好心人的姑息养奸。


非常善良一味合作的AllC与同类、TFTGrim相遇时都能合作,各得了次好的收益。遇上无视你的善意的AllD和其他比较狡猾的策略,只能被予取予夺,对方得到最高,自己落得最惨下场。所以单纯的善良只能生活在备受保护的环境,遇到坏人总是受欺。


Grim,与TFT或单纯的AllC相处还好,遇上其他不太安分的策略,最终多会互相掐上了。这家伙苦大仇深,心眼较小。眦仇必报,一但发作,没完没了,自己的人生也赔上去了。


TFTGrim最初的应对相同,遇上善良的能够合作共荣,遇上恶意的则报复不容欺侮,但遇对方不安分但尚能见风使舵的还会走向合作共赢。唯宽可以容人,这对大家都好。


其他更狡猾复杂的策略至多在AllC或比较善良的策略间讨点便宜。对AllDTFTGrim及其他比较狠辣的策略得不偿失。


当然GrimTFT,严格地以牙还牙,还是显得过于狭隘。双方都持有这种策略在如电脑一样毫不差错的对局中都还能合作下去。但在现实世界中偶而的错失和误解是难免的,一个误会就引起惩罚,惩罚带来报复,报复又受反击,这样以牙还牙的一直互斗下去。现代的战争和人事无谓的争斗大多是如此引起的。为此各种修正的TFT应运而生,比如说受到对方背叛时不一定非要报复,有时偶尔再次伸手合作,具有额外的宽容可以在误会等等具有噪音环境里,也能稳定地走向合作。


邪不胜正的根本道理在于:邪道追求的是胜过对方,而正道追求的是合作共荣。在每次博弈时,邪也许能胜了正,从中得利,但在与各种人长期相处中,坚持正道的,则累积了最多的收益。


(待续)



https://blog.sciencenet.cn/blog-826653-679411.html

上一篇:从自私走向合作——5短视的原因
下一篇:从自私走向合作——8规范和自律
收藏 IP: 50.131.158.*| 热度|

19 李伟钢 彭思龙 孙学军 徐英祺 王浩 苏盛 晋华 罗春元 罗淼 张云 徐晓 朱豫才 张天蓉 鲍得海 丁大勇 何巧巧 wnagjiho sowhathen yueliang002

该博文允许注册用户评论 请点击登录 评论 (19 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 04:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部