欧阳峰的博客分享 http://blog.sciencenet.cn/u/fouyang

博文

也谈博弈

已有 3411 次阅读 2010-3-17 07:22 |个人分类:学海无涯|系统分类:科普集锦| 博弈, 囚徒困境, 雪堆博弈

最近方舟子写了一篇关于博弈论在生物学中应用的文章(1),其中介绍了麻省理工学院Gore等人关于酵母菌在 产生单糖策略上的合作与欺骗的研究(2)。“传播数学”对此发表了一篇评论,指出方舟子文章中的一些问题, 同时也给了一些关于博弈论的介绍(3)。 方舟子为此贴出回应,被网友作为评论转帖到“传播数学”的文章后面 (4)。 其后,“传播数学”又写了两篇回应文章(5)(6)。

这些文章中有很多涉及人身攻击的语句,起因于网站与网友之间的恩怨。但是其中涉及到的争论确实属于一个科学问 题,值得继续探讨。本文试图局限于科学范围,对这两位作者的争论提出自己的理解。
 
方的回应提出有两点(4) :1.酵母菌的研究是否属于“博弈论”。2.“囚徒困境”是否稳定。
 
本文试就这两个问题进行讨论。关于此问题的背景和有关知识,在以上引用的文章中已经很好地介绍了,这里就不再 重复。
 
 
麻省理工的工作是否属于博弈论?    
 
“传”文认为,因为酵母菌的行为是由基因决定的,不能改变,所以这个酵母体系是个动力学问题而不是博弈问题  (3) 。 但在后续讨论中,作者也指出,种群中“好人”和“坏人”的比例,是可以与“个人”的选择策略联系 起来的(7)。他说:“设想一下在两种酵母都稳定的情况下, 新加入种群的酵母, 当好酵母和当坏酵母,  收益都一样才行, 否则种群不能平衡。”
 
方文认为,原论文摘要的最后一句提到了“strategy”和“cooperate”这样主观的词,所以显示 这是博弈(4)。
 
为了解决这个问题,需要看一看“博弈”的定义。以下是一本博弈教科书的开头:(8)
 
“博弈论是关于冲突与合作情况的逻辑分析。具体地说,“博弈”定义为具有如下特征的情形:
至少有两个参与者。参与者可以是个体,也可以是公司,国家甚至生物物种。
每个参与者有若干个可能的策略,即他所遵循的行动计划。
参与者选择的策略决定了博弈的结果。
与每一种可能的博弈结果相联系,对每个参与者都有一个数量化的回报值,代表了这个结果对于各个参与者的价值。
 
可见,一个博弈需要有至少两个参与者,每个都有不同策略的选择。而且博弈还需要定义一套回报函数。那么对于参 与者和回报函数这两个要素,这个酵母菌工作是否满足呢?让我们来看看这个工作的原始论文(2)。
 
这个工作的主要内容,是研究一个酵母群体中,制造单糖的品种(“好人”)与不制造单糖的品种(“坏人”)之间 的比例。作者发现,这个比例随着时间延续会达到一个稳定值。这个稳定值与初始条件无关,而与培养基的条件有 关。根据我的理解,这个系统可以用下面的方程来描写: 【注一】
R_c=f(S+s)-e
R_d=f(S)
这里R_c和R_d是合作者(好人,c)和叛变者(坏人,d)的生长速度。S是环境中单糖的浓度。s是“好人” 截留的单糖量。【注二】   f是一个函数,表示回报值依赖与酵母能得到的糖的总量。这是一个递增非线性函数, 其斜率随自变量增加而递减。e 是“好人”的代价。它有两部分。一是制造单糖的代价(耗费能量),二 是 “好人”对组氨酸的特有依赖性(可能是人工引进的)。在培养基中组氨酸浓度降低时,e的值增大。单糖浓度S取 决于“好人”的比例和外加单糖的浓度。
 
好了,现在我们可以看看这个体系的“动力学”了。在“好人” 比例低时,S值小。f随自变量的增加快。所以 R_c通过f 得到的好处多于通过e付出的代价。“好人”占优势。但在“好人” 比例高时,S的值大,f随自变 量的增加变慢。这样“好人”通过f得到的好处少于代价,就处于劣势。在两者之间,有一个平衡点,使得
R_c=R_d
这个对应的“好人”与“坏人”的比例就是平衡比例。通过改变培养基中外加单糖浓度和组氨酸的浓度,可以改变这 个平衡点。这样,基本就可以描出f函数的特性来了。
 
你看,我描述这个工作,根本没有用到博弈论的语言。与上面博弈的定义对比,我们也许可以说“生长速度”相应于 回报函数。但这里没有“策略”的选择。即使我们把“好人”和“坏人”的比例看成是等价于个体对于混合策略的 选择(9) ,那也只有一个参与者。个体“博弈”的对象是它的环境,而这个环境是固定的。个体需要考虑的,只是 如何在给定的R_c和R_d中选择较大的一个。所以在这个意义上说,这是一个优化问题,而不是博弈。
 
在Gore等的工作中,个体与其他个体的相互作用是通过环境来实现的,而环境只是反映了其他个体行为的总和, 而不是每一个个体的行为。关键问题不是所考虑的个体有没有策略上的选择,而是它的“对手”有没有策略上的选 择。Gore等工作与博弈论的关系,只是表明了酵母系统的“回报函数”属于雪堆博弈而不是囚徒困境。而Gore 等对于参与者的策略的考察并不属于博弈论。囚徒困境和雪堆问题之所以引人入胜,不只是因为它们的回报函 数反映了现实中的很多现象,而且是因为它们引出了博弈论的一些基本概念(如多次博弈,混合策略等等)。而这 些概念在Gore等的文章中没有体现出来。
 
关于方文的争辩(4),Gore等论文摘要的最后一句的确提到strategy(策略)。但是摘要的那一句是 总结论文中的一个观察,就是“好人”种的酵母并不总是合作(制造单糖)。在单糖浓度较高时,它会改变行为停 止制造单糖,也就是改用“坏人”策略。但是这个观察与论文的主要结果没有关系。在论文附录(10)   图5的说明中,作者提到,以上几段所提到的“竞争实验”是在低单糖浓度中进行的,所以“好人”菌种总是在制造 单糖。进一步分析也可以旁证这一点。从论文附录图5a看,酵母单糖转换的能力大约在单糖浓度为0.01%时 开始下降,到单糖浓度为0.1%时降为零。而从论文(2)图3看,所有结果都在单糖浓度在0.01%以下就 清楚显示了。对照图3a与图1中的“好人”比例,我们可以看出图1也是在单糖浓度低于0.01%(“好人” 比例高于10-3)的情况下的。所以,“好人”与“坏人”的转变与这部分研究没有关系。
 
但是Gore等论文的确多次提到博弈论,以此作为他们讨论的语境。那么是不是在生物学研究中,“博弈”的意义 有所不同呢?
 
的确,有一门“进化稳定策略”(Evolutionarily Stable Strategy, ESS)的学科,有时也 被称为“进化博弈论”(Evolutionary Game theory)。它并不假定个体有选择策略的自 由。但通过采用不同策略的个体的生存情况来分析群体的进化。这一点很像Gore等人的工作。有人评论说, 这个ESS理论的出发点实际上与博弈论很不一样。而它的平衡点与纳什平衡点相同(在大多数情况下),应该说 是一个意外(11)。
 
ESS的创始是J. Maynard Smith(12)(13)。在(13)中,作者说道:“一个ESS可以是混合策 略...这时候,一个稳定的群体可以是遗传上多形的(genetically polymorphic), 其中有适当比例的个体采用某种纯策略。或者,它可以是单形的(monomorphic),其中每个个体 都适当地随机选取策略。”这前一种情况就相对于Gore等论文的情况。所以Gore等的工作可以说是属于ESS 的。然而,即使在ESS中,人们也常常是考虑个体之间的博弈,而不是个体与环境的博弈。如Maynard  Smith的工作(12)(13)就是考虑动物种群内个体之间争斗的策略(既要赢,又不能彼此消耗太多)。Gore 等人引用的另一篇Wxelrod和Hamilton的工作(14),也是关于个体间“囚徒困境”的互 动。这篇论文还花了很大篇幅讨论“记住对手”的能力在互动中的作用。事实上,该论文结论就很依赖于两个个体 有足够高的机会再次相遇(以下还要讨论)。
 
所以,我们看到有一些ESS工作比Gores的更接近博弈论。但目前我不知道有多少ESS工作与Gore等的 工作是一类的。
 
综上所述,博弈论的基本概念来看,他们的工作至少不算博弈论中具有挑战性的部分。作为普通报刊上的科普文章, 跟从原作者的意思而将之看为博弈论工作也不算大错。只是读者不要得到这样的印象:这样的工作已经涵盖了囚徒 困境和雪堆问题的主要课题。
 
 
2. “囚徒困境”群体是稳定的吗?
 
方文说道:(1) “他们认为这像是“囚徒困境”。在这样的群体中,好人和骗子分享全部的资源,而好人要承担生 产成本,因此好人总是竞争不过骗子,一旦出现骗子,它们的后代数量会越来越多,好人的数量会越来越少, 等到骗子们统一了天下,末日也就快到了,好人遗留下来的单糖被耗尽后,群体就会灭绝。一个处于“囚徒困境” 的群体是很不稳定的。”“传”文认为,“囚徒困境”在多次博弈的情况下,“以牙还牙(tit for  tat)”的策略是稳定的。这一点的根据是Axelrod的文章 (14)。方的回应 (5)则根据Gore等 论文中的一段话来证明“囚徒困境不稳定”是科学界共识:“在这种情况下,欺骗者总是会比合作者长得快,它们 之间的相互作用就成为所谓的囚徒困境,而在这种情况下合作策略不能在充分混合的环境下持续”。在另一个类似 的工作中 (15),作者也说:(关于囚徒困境博弈)“在合乎生物现实的仿真中表明,当存在重复互动,变异,错 误时,或者在一个具有空间结构的环境中,没有单一的稳定解。而且个体策略的演变可以是周期性的或杂乱 无章的。”
 
在ESS中,“稳定”的含义是:采用一种策略的群体不能被采用其他策略的群体侵入(13)。也就是说,少数采 取其他策略的个体不能占到便宜而壮大起来。而众所周知“合作”不是囚徒困境中的稳定策略。但这不等于囚徒困 境的系统就不能采取其他策略而达到稳定。(有趣的是,在Gore等的论文中,通篇没有用“稳定“这个词,而 只是说“平衡”。)
 
从文献上看,Axelrod等关于囚徒困境和生物群体的工作(14)只是这个领域的开始。这个工作证明,  “以牙还牙”的策略在囚徒困境群体中是稳定的。但是,这需要一定的条件,主要是开始就有足够多的“以牙还牙” 者,而且个体之间有足够高的重逢的机会。Axelrod等的论据是:只要能做到“日久见人心”,任何其他策 略在“以牙还牙”面前都占不到便宜。但是后来有人指出(16),这样的证明是不够的,因为可能有第二种策略 (比如“以牙还牙”的一个变种)虽然在对付“以牙还牙”时不相上下,但在对付第三种策略时比“以牙还牙”有 效。这样当第三种策略不断入侵时,这第二种策略就会占上风。当博弈的规则有少许变化(例如允许“骗子”躲避 受过骗的人),或者在群体中引入空间结构时,情况还会更为复杂。囚徒困境的群体稳定是一个相当复杂有趣的问 题。是否稳定与很多因素有关(17) (18)。
 
然而,在Gore等工作的语境内,以上的讨论都不适用。因为这里没有个体之间的多次博弈,所以类似“以牙还牙” 的策略不能被采用。在这种情况下,正如方文所说,任何试图合作的个体都会吃亏,最后“骗子”占据整个群体。 也许这就是方所说的“不稳定”的含义。但是,“骗子当道”却是ESS意义上的一种稳定策略(“骗子”群体 不能被“好人”所入侵)。Gore等文章中说的“合作策略不能持续”( 至少在ESS的意义上)不能等同于“不 稳定”。
 
方文中的不稳定,也许是指他前面的一句话:“等到骗子们统一了天下,末日也就快到了,好人遗留下来的单糖被耗 尽后,群体就会灭绝。”但是,这不仅不是ESS意义上的不稳定,而且依赖于一个条件,就是“骗子黑吃黑”的 回报函数使得群体不能生存。这个条件对我们面对的酵母菌问题是成立的,但对于囚徒困境问题来说不是普遍成立 的。例如,如果外界能提供少量的单糖,那么一个“骗子当道”的群体虽然不如一个合作的群体活得好,但还是活 得下去的。
 
所以,方的原话应该被理解为对于一个特定情形的评论,而不是一个具有普遍性的陈述。
 
 
 
综上所述,虽然争论双方看来针锋相对,实际上只是在不同的视界看问题而已。对于有不同背景的人,对一些词语和 陈述的理解不同是自然的。如果硬要分出胜负,往往会走向“咬文嚼字”的牛角尖。但是除去人身攻击部分,这些 讨论还是有助于读者超出直接讨论的论文而得到更全面的知识。
 
“掐架,是学习的动力。”
 
【注一】这个方程是大大简化和不严格的,其目的只是要指出下面谈到的特征。
【注二】严格地说,“单糖浓度”和“单糖量”不能直接相加,需要一个换算。不过这个关系不大,这里就不考虑了。
 
Bibliography
1. 方舟子. 好人和骗子的博弈. 方舟子的blog. [Online] April 15, 2009. [Cited: April 30,  2009.] http://xysblogs.org/fangzhouzi/archives/4564.
2. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander.  Snowdrift game dynamics and facultative cheating. Nature. [Online]  April 6, 2009. [Cited: April 30, 2009.] http://www.nature.com/nature/journal/vaop/ncurrent/abs/nature07921.html.  doi:10.1038/nature07921.
3. 传播数学. 好人和骗子没博弈. 数学科普. [Online] April 19, 2009. [Cited: April 30,  2009.] http://www.de-sci.org/blogs/math/archives/29090.
4. 匿名. 评论. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.]  http://www.de-sci.org/blogs/math/archives/29090#comment-169159.
5. 传播数学. 答新语丝网友们. 数学科普. [Online] April 19, 2009. [Cited: April 30,  2009.] http://www.de-sci.org/blogs/math/archives/29114.
6. —. 囚徒困境的稳定性, 简问方舟子先生第二次. 数学科普. [Online] April 20, 2009. [Cited:  April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29195.
7. —. 评论. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.]  http://www.de-sci.org/blogs/math/archives/29090#comment-168938.
8. Straffin, Philip D. GameTheory and Strategy. Whashington DC  : The Mathematical Association of America, 1993. ISBN  0-88385-637-9.
9. Wikipedia. Strategy (Game theory): A disputed meaning.  Wikipedia. [Online] [Cited: April 9, 2009.] http://en.wikipedia.org/wiki/Strategy_(game_theory)#A_disputed_meaning.
10. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander.  Supplementary Information to Snowdrift game dynamics and  facultative cheating. Nature. [Online] April 6, 2009. [Cited: April  25, 2009.] http://www.nature.com/nature/journal/vaop/ncurrent/suppinfo/nature07921.html.  doi:10.1038/nature07921.
11. Wikipedia. Evolutionarily stable strategy: motivation.  Wikipedia. [Online] [Cited: April 25, 2009.] http://en.wikipedia.org/wiki/Evolutionarily_stable_strategy#Motivation.
12. Maynard Smith, John; Price, George R. . The logic of animal  conflict. 1973, Vol. 246, 15-18.
13. Maynard Smith, J. The theory of games and the evolution of animal  conflicts. Journal of Theoretical Biology. 1974, Vol. 47,  209-221.
14. Axelrod, Robert and Hamilton, William D. The Evolution of Cooperation.  Science. 1981, Vol. 211, 1390.
15. Greig, Duncan and Travisano, Michael. The Prisoner's  Dilemma and polymorphism in yeast SUC genes. Proc. R. Soc. Lond. B.  2004, Vol. 271, S25-S26.
16. No pure strategy is evolutionarily stable in the repeated  Prisoner's Dilemma game. Boyd, Robert and Lorberbaum, Jeffrey  P. 58-59, s.l. : Nature, 1987, Vol. 327. doi:10.1038/327058a0.
17. Brembs, B. Chaos, cheating and co-operation: potential  solutions. Oikos. 1996, Vol. 76, 14-24.
18. Doebeli, Michael; Hauert, Christoph. Models of cooperation  based on the Prisoner's Dilemma and the Snowdrift game. Ecology  Letters. 2005, Vol. 8, 748-766.



https://blog.sciencenet.cn/blog-309766-303702.html

上一篇:面对灾难,你准备好了吗?
下一篇:大脑是怎样工作的?
收藏 IP: 162.129.250.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 06:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部