Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

[转载]人工智能在多角色游戏中获胜

已有 1487 次阅读 2020-6-12 17:55 |个人分类:王飞跃教授|系统分类:观点评述|文章来源:转载

 人工智能在多角色游戏中获胜

 

2019年7月,由Facebook与卡内基梅隆大学合作开发的一款新型人工智能系统Pluribus扑克机器人,在6人无限制德州扑克比赛中击败了15名顶尖选手,其中包括多位世界冠军(图1)。这是AI首次在超过两人的复杂对局中击败人类顶级玩家。Pluribus通过自我博弈的方式从零开始进行训练,最终达到超越人类的水平。

 

图1 人工智能(AI)在多玩家扑克游戏中战胜顶级人类玩家 (图片来源:Science杂志官网)

  

从人工智能(AI)创立之初, AI游戏一直是其主要研究内容之一. 2016AlphaGo战胜人类围棋大师, AI历史上的里程碑事件有力地推动了AI技术的迅速普及和深入.2019年美国卡内基梅隆大学团队开发的AI系统Pluribus在六人桌无限制的德州扑克比赛中, 分别以单机对五人和五机对单人的方式, 击败十五名世界顶级专业选手, 突破了过去AI仅能在国际象棋等二人游戏中战胜人类的局限成为机器在游戏中战胜人类的又一个里程碑性工作, Science评选为当年的十大科学突破之一


为什么Pluribus被如此关注, 还被视为AI领域的重大突破? 近几年AI研究者在不同的复杂游戏博弈中都取得了重要突破, 比如围棋、二人扑克、星际争霸2Dota2等等. 然而, 这些游戏绝大多数被限制在二人玩家的零和博弈与完备信息框架之内. 尽管基于强化学习的AI策略在Dota2 FiveQuake III等多玩家游戏博弈问题上已取得了相当的进展, 6玩家的德州扑克问题对于AI来说依然是最有挑战性的问题. 主要原因如下:

(1)必须处理不完备信息, 玩家需要在不知道对手策略和资源的情况下决策, 需要在不同子博弈之间寻找平衡;

(2)很难达到纳什均衡, 纳什均衡的复杂度随着玩家数量的增加而指数性增加, 在算力上几乎不可能实现;

(3)需要使用诈唬等心理技巧, 真实比赛中需要有效推理隐含信息、寻找让对手无法预测的策略, 懂得诈唬技巧是成功的关键之一

 

在不使用任何先验信息的前提下, Pluribus从头开始学习, 以自玩的模式训练、推理、积累, 进而获取并提高博弈技巧. 在单机同时对抗五位全球顶尖高手的比赛中, 一万手回合中战胜了13位人类专业大师;在五机同时对抗一位人类高手的比赛中, 分别5000手回合中战胜了二位世界冠军, 取得超人Superman般的胜利. 这是AI技术的重大突破, 为此卡内基梅隆大学团队付出了十余年的心血和努力不但为多玩家场景下的博弈和电竞做出了重大贡献, 更为AI在商务决策、企业管理和军事指控等重要领域的实际应用提供了技术支撑

 

与其他的AI博弈技术不同, Pluribus具有诈唬(bluffer)的能力专业玩家在比赛后承认, 在抵制机器的行动中遇到麻烦. Pluribus是个怪兽级的欺骗者, 而且大多数情况下它的欺骗手段是非常高效的这是为何Pluribus难被击败的原因. 尤其特别的是, 尽管在很多情况下玩家明知道它在使用欺骗手段, 在与之对战时还是感受到了巨大压力. 在算法和玩家的共同训练下, Pluribus不但让人类难以琢磨而且常常大胆地以玩家忌讳的驴赌Donk Betting取胜. Pluribus不但没有采用任何人类玩家策略或先验信息, 还会生成很多人类不常采用或者认为是错误的策略, 比如Donk Bet, 就是一种被玩家看作是没有战略意义的弱势举动. 顶尖玩家认为, 这将在一定程度上改变人们对传统策略的看法, 影响职业玩家. 现在, 人类必须向机器学习!


这些结果对研究人类社会认知能力和水平具有重要意义. 例如研究结果为量化精准地研究个体中瞬态认知的Miller 数和群体中长期认知的Dunbar数提供了新方法, 更为设计并计算人类心理负担和脑力劳动强度等难以共识的指标提供了可能途径. 最重要的是, 这为针对不定、多样、复杂情况下的知识工作自动化提供了技术支持, 具有广泛的应用前景, 对企业管理智能化、财务智能化、法务智能化等至关重要, 必将在智能产业中发挥核心关键作用

 

目前, 我国在游戏领域取得的成就主要集中在1v1的视频游戏领域. 例如, 中科院自动化所团队设计开发的CES Bot2018年的第八届AIIDE星际争霸AI挑战赛以87.11的胜率取得大赛季军. 星际争霸游戏考察的是多智能体协同合作的能力. 腾讯AI Lab利用深度强化学习在王者荣耀1v1游戏虚拟环境中构建绝悟AI, 开发高扩展、低耦合的强化训练系统,使得AI能够完成进攻、诱导、防御、欺骗和技能连招释放的能力.不同于星际RTS实时策略研究agent之间的协作策略,“绝悟AI更关注agent动作的复杂控制, 此类MOBA 1v1游戏的复杂性来自其机制及巨大的动作和状态空间. 2016, 基于游戏的ViZDoom AI竞赛诞生, 作为第一人称FPS类游戏, 该比赛首先搜索输入像素级视觉信息, 直接输出AI控制策略的强化学习算法.清华大学TSAIL与腾讯AI Lab合作, 获得2018年比赛的初赛和决赛冠军FPS类游戏考察的是智能体对于环境感知与定位的能力.总体而言,我国目前对于多玩家场景的发展速度还比较慢,在进一步的研究中

 

真实世界中大部分策略交互问题都包含隐藏信息, 一般超过两名参与者. 因此, 对于复杂场景下信息不完备、多玩家参与的博弈问题的研究具有非常现实的重要意义. Pluribus的相关技术可以应用到战争防卫、防止诈骗、信息安全以及包含多智能体或者隐藏信息等交流有限、参与者之间有作弊行为的许多领域. Pluribus相关团队获得美国军方长期的大力支持, 就是一个佐证. 显然, AI游戏的研究意义远不止游戏本身, 对于游戏的研究可以打通虚拟世界与现实世界的藩篱, 利用虚拟世界中的计算实验完成现实世界中无法完成的测试AI游戏可以作为解决现实问题的低成本高性能试验场, 进而构建与真实系统交互的人工甚至数字孪生系统, 最终形成虚实互动的平行智能系统, 对社会经济领域, 具有十分重大的意义


作者简介


3412324235.png

王飞跃, 中国科学院自动化研究所研究员, 复杂系统管理与控制国家重点实验室主任. 主要研究复杂系统、智能控制、智能机器人、无人驾驶等领域, 先后当选IEEEINCOSEIFACASMEAAAS等国际学术组织的Fellow. 主持完成多项国家重大项目, 并应用于城市交通、工业生产、社会安全等领域.曾获国家自然科学二等奖、IEEE SMC诺伯特·维纳奖.


本文来源王飞跃教授科学网博客:http://blog.sciencenet.cn/blog-2374-1237622.html

 



https://blog.sciencenet.cn/blog-951291-1237625.html

上一篇:时滞可交换四元数神经网络稳定性分析
下一篇:基于ACP方法的新型冠状病毒肺炎疫情管控措施效果评估
收藏 IP: 159.226.181.*| 热度|

1 蔡宁

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-26 07:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部