博文

通过传统游戏改进人工智能

已有 4654 次阅读 2023-7-15 15:17 |系统分类:海外观察

几千年来，人类一直把棋盘游戏作为一种打发时间和斗智斗勇的愉快方式。像Senet这样的游戏是如此珍贵，以至于在公元前3500年被埋葬在埃及坟墓中，以备墓主人来世使用（1）。国际象棋和围棋等战略棋盘游戏的技巧代表了人类智能的巅峰，因此，此类棋盘游戏被视为衡量机器智能的标准也就不足为奇了（2）。近年来，计算机在各种策略游戏中已经超过了人类的技能。尽管最近人工智能（AI）在经典战略游戏中的主导地位似乎预示着游戏可以教给我们的人工智能的终结，但研究人员才刚刚开始应对现代视频游戏带来的更加复杂和多样化的挑战。

游戏提供了安全的机会来隔离和练习许多可转移到现实世界的技能。因此，它们不仅是人类的宝贵训练场，也是智能机器的宝贵训练场。战略推理和解决问题的能力可以从传统游戏中学习，如tic-to，跳棋，国际象棋和围棋。概率推理可以从西洋双陆棋、桥牌和扑克等游戏中学习。Hanabi等社交游戏教授合作和谈判。此外，视频游戏大大开辟了可以练习的技能空间，包括经营企业、管理不断发展的模拟城市或赛车虚拟汽车。

跳棋、国际象棋和围棋等游戏代表了最简单的一类游戏，因为玩家拥有完美的信息，所有玩家都可以看到所有信息，没有任何隐藏或随机元素。从理论上讲，游戏可以通过计算两个玩家的最佳比赛来“解决”，这将保证获胜或平局。跳棋（3），连接四，五子棋和九个男人的莫里斯是数学解决游戏的例子。国际象棋和围棋仍然没有解决，因为它们可能有很多棋盘状态。

一个较弱但仍然令人印象深刻的技能展示是击败世界上最好的人类棋手，就像深蓝在 1997 年击败卫冕世界象棋冠军加里卡斯帕罗夫一样（4）。2016年，AlphaGo在围棋比赛中表现出类似的超人表现（5）。在处理Go的过程中，开发了一种称为蒙特卡罗树搜索（MCTS）的新随机搜索算法来处理大型状态空间，该算法对各种现实世界的优化问题（如多机器人路径规划和程序内容生成）具有优势。

图片1.png

2016年3月职业围棋选手李世石在被AlphaGo击败

Improving artificial intelligence with games | Science

在大型游戏中，仅靠MCTS无法对足够多的可能期货进行采样，以准确确定早期和中期游戏板头寸的价值。相反，搜索必须辅之以对中间游戏状态的长期价值的良好估计。值得注意的是，在使用神经网络来估计中间棋盘位置的价值之前，围棋中的超人表现才得以实现，这使得 MCTS 更加准确和高效。

尽管计算机在1979年击败了世界西洋双陆棋冠军（6），比计算机在国际象棋或围棋中获胜早了几十年，但西洋双陆棋代表了更具挑战性的游戏类别，因为增加了随机机会。在机会游戏中，搜索树中节点的值必须表示该游戏状态的期望值，即游戏随机未来可能展开的所有可能方式的加权总和。西洋双陆棋项目的表现是使用自我游戏和强化学习（RL）训练计算机程序的力量的高调展示。

扑克和战略等游戏增加了玩家信息不完善的复杂性。虽然扑克玩家知道自己的牌，但他们不知道对手的牌或任何未公开的共享牌。此外，在扑克比赛中，目标是长期赢得最多的钱，而不仅仅是赢得个人手牌。因此，人工智能系统不仅要推理对手当前的牌，还要推理他们的长期投注策略。用博弈论的术语来说，它是重复博弈的一个例子，其中一轮中的互动会影响玩家在未来几轮中的信念和策略。超人的表现已经在不完美的信息游戏中得到了证明，例如Stratego和德州扑克无限制扑克（7）。然而，有趣的是，桥牌仍然是人工智能尚未掌握的游戏的罕见例子，这可能是由于与合作伙伴一起玩好所需的团队间和团队内部沟通的复杂性。

为了研究更普遍的智能“代理”，2005年至2016年间举行了年度竞赛，以激发游戏研究（8）。代理们用正式的游戏描述语言向新游戏提出了一个逻辑定义，并且不仅要推理如何玩，还要推理如何在内存中表示游戏，以便可以搜索和评估它。最近，MuZero（9）被提出，这是一个可以学习下雅达利，国际象棋，围棋或将棋的单一统一系统。紧随其后的是Player of Games，它扩大了该系列，包括不完全信息游戏，如扑克。

尽管设计可以击败世界上最好的玩家的计算机程序的成就令人印象深刻，但策略游戏需要一种特殊的智能。具体来说，这些成功的程序使用某种形式的引导式深度搜索和状态值估计。与人类相比，计算机在搜索方面更快、更彻底，最近通过使用自我游戏生成大量专家级数据，这些数据被输入到作为函数近似器的神经网络中，在状态值估计方面变得更好。

相比之下，视频游戏带来了新的挑战类型，其中许多挑战推动了需要更多“常识”智能的系统的发展（10）。视频游戏是一般智能工作的一个有前途的应用领域，因为它们是对虚构世界的复杂模拟，具有（虚构的）物理特性，并且通常填充有各种其他玩家和非玩家角色。它们带来了许多与构建通用机器人相关的挑战，而没有现实世界的复杂性和成本。事实上，开发代理来玩视频游戏可以让研究人员在相对低风险的环境中发现并开始解决不良的紧急行为，而不是在关键业务应用程序中。

迄今为止，只有少数人工智能系统被开发用于这些领域。在 1990 年代后期，《雷神之锤》和《毁灭战士》等游戏被用来探索基于规则的人工智能系统的力量。事情在2015年发生了变化，当时通过神经网络和RL进行图像处理的进步使代理能够玩一些经典的Atari游戏（11）。不久之后，Atari游戏套件成为AI研究人员比较RL算法的基准领域。雅达利游戏套件还暴露了具有挑战性的情况，例如稀疏的奖励，迫使研究人员继续扩展技术的功能。这些进步使研究人员能够处理更现代和更困难的视频游戏，包括即时战略游戏星际争霸II（12）和DotA 2（13），以及高度逼真的赛车游戏Gran Turismo（GT）（14）。这三个项目最终都以对顶级电子竞技游戏玩家的评估而告终，他们在评估中展示了大师或超人的表现。在所有这些成功中，机器学习使研究人员能够达到手工编码规则无法达到的性能水平。

尽管关于为这些特定游戏构建AI已经学到了很多知识，但开放世界游戏（如Minecraft，Horizon Forbidden West或The Legend of Zelda：Tears of the Kingdom）所带来的挑战尚未被征服。这些游戏需要人工智能系统来学习各种技能，并将其应用于具有不同地形、敌人和其他挑战的巨大地图上。它们涉及战斗、旅行、经济和创造性解谜等元素。它们具有复杂的故事情节，以自然语言传达，在整个游戏中展开，并要求玩家利用获得的技能和知识来取得进展。为这些游戏的一小部分构建代理所需的技术是可用的，生成AI的最新进展可能有助于应对其中一些挑战。然而，构建一个通用代理架构的任务仍然是一个巨大的挑战，该架构可以学习（尤其是在人类的时间尺度上）。

使用视频游戏作为人工智能研究的平台直接有利于价值 200 亿美元的全球视频游戏行业，并最终有利于元宇宙的发展。生产能够玩现代视频游戏的代理可以解锁游戏本身中更有能力、更像人类的非玩家角色的可能性。例如，来自在线论坛的关于最近在《跑车浪漫旅 7》中限时部署赛车代理（GT Sophy）的轶事证据表明，玩家认为与 GT Sophy 比赛提供了一种更像是与其他熟练人类比赛的体验，而不是游戏默认的手动编码 AI。随着技术的进步，游戏社区可以从更智能的代理中受益，将它们用作在线游戏中的对手和队友，作为游戏内导师，作为自动测试人员来查找游戏中的错误，或由设计师来确保游戏平衡。

在现实世界中，游戏通常采取运动的形式。对可以进行体育运动的机器人的研究，例如正在进行的RoboCup（15）机器人足球比赛和Indy自主挑战赛中开发的自动赛车，同时刺激了人工智能和机器人技术前沿的进步。在这两个例子中，大部分研究都是在模拟中进行的，因为保持真实机器人运行的成本和复杂性使它们无法用作唯一的实验平台。弥合模拟到现实的差距，一个描述将策略从模拟转移到真实机器人的挑战的概念，已成为这些项目的研究主题。幸运的是，在很大程度上，由于几十年来为改善视频游戏的图形和物理真实感所做的努力，机器人模拟的保真度不断提高，从而缩小了模拟到现实的差距。

在视频游戏中的人工智能方面取得进展也将是朝着在物理世界中运行的更强大、更灵活的人工智能系统迈出的重要一步。与专用机器人相比，通用机器人需要能够不断适应环境并快速学习新任务。现代开放世界视频游戏允许人工智能研究人员专注于基本的人工智能主题，如多任务学习、终身学习、常识推理、人与人工智能协作和可解释性，同时将现实世界传感器和执行器带来的挑战留给机器人专家。随着机器人模拟器变得更加逼真，模拟与现实的差距将继续缩小，使得在游戏和模拟中起作用的技术更有可能转移到现实世界。