|
最近基于囚徒困境的重复博弈研究发现,通过零行列式策略(Zero-Determinant strategies, ZD策略)可以单方面保证双方收益满足线性关系,控制对手收益[1]。由Press和Dyson提出的ZD策略巧妙地从马尔科夫链角度揭示了博弈双方策略与期望收益之间的关系,为重新认识各种策略的性质及相互关系提供了全新的理论框架,正在根本改变囚徒困境博弈理论的研究范式[2]。
近期我们基于多人公共品博弈模型,发现零行列式策略同样可以扩展到多人博弈中[3]。公共品博弈(Public goods game, PGG)是一种多人囚徒困境博弈模型:在一个由N人参与的博弈中,每个人可以选择向公共品箱放入一定的投资c,或者选择不投资。当所有人进行决策后,假设选择投资的人数为x,则总投资(公共资源)cx会翻r倍后平均分配给每个参与者,这样选择不投资的背叛者的收益PD=rcx/N,而合作者因投资了c,其收益为PC=PD-c。可见,公共品博弈中的合作者有亏损的风险(当投资者数x<N/r),而搭便车的背叛者因不投资但分享公共资源,其收益一定比合作者高。所以自私个体在没有有效机制的限制下,会放弃对公共资源的投资而陷入公地悲剧中[4]。
我们基于公共品博弈模型研究了多人博弈的两类重要的零行列式策略:设定策略(Equalizer strategies)和剥削策略(Extortion strategies)。研究表明,当1<r≤N/(N-2)时(即参与人数N足够少或者乘性因子r足够小时),存在设定策略使一个人将其他N-1个对手的收益和设定到期望的固定值。同样,存在一类有趣的多人剥削策略,使剥削者可以单方面的保证其收益是N-1个对手收益和的平均值的倍。与两人囚徒困境博弈模型中剥削者可以任意选择不同的是,公共品博弈中剥削因子存在上界,过多的参与者N或者过高的乘性因子r都会使剥削策略不存在。此外,我们还指出存在一类共谋策略(Collusive strategies),使几个参与者共同协作生成一类ZD策略控制其余个体收益的可能性。上述研究有助于进一步研究群体中行为的调控问题。该文自去年2月份发表在Axiv上后,已经被包括哈佛大学Nowak教授在内的学者在PNAS等杂志上引用8次,近期正式发表在Scientific Reports上。
[1]W. Press, F. Dyson (2012), Iterated Prisoner’s Dilemmacontainsstrategies that dominate any evolutionary opponent, Proceedings of theNational Academy of Sciences, vol. 109, pp. 10409–10413.
[2]A. J. Stewart, J. B. Plotkin (2012), Extortion andcooperation in thePrisoner’s Dilemma, Proceedings of the National Academy ofSciences, vol.109,pp.10134–10135.
[3]L. Pan, D. Hao, Z, Rong, T. Zhou (2015), Zero-determinant strategiesin Iterated Public Goods Game, Sci. Rep., vol.5: 13096.
[4] G.Hardin (1968), The tragedy of the commons. Science,vol. 162, pp.1243–1248.
全文免费下载:
http://www.nature.com/articles/srep13096
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 10:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社