||
千年未有之大变局
人类自以为是万物之灵,只有自己才能理解大自然的奥秘。
三年前,谷歌公司的DeepMind人工智能团队震惊了全世界,AlphaGo战胜了围棋世界冠军李世石。随后,AlphaZero横空出世,只要告诉他围棋规则,不需要学习人类的下棋技巧,自己从零开始学习,就可以取得最终胜利。但是,无论是AlphaGo还是AlphaZero,都需要有人事先告诉他们规则,并不能自己发现围棋这种游戏的规则。
几天前,DeepMind发表了一篇文章,宣称他们的新算法MuZero,不需要知道游戏的规则,只要自己观看游戏,就可以发现规则、制定相应的策略并取得最终的胜利。他们在围棋、日本将棋、国际象棋以及57种雅塔利电脑游戏上都证明了新算法的威力。
这种算法不仅可以玩零和游戏,还可以玩非零游戏,而且普适性很强。简单地说,对于某个特定的游戏,只要给他看一些游戏的进程,告诉他最终的胜负结果,他就会发现这种游戏的规则,通过强化学习来发现高明的战术,最终战胜对手。以围棋为例,事先不知道规则的MuZero经过观察和学习,能够达到事先知道规则的AlphaZero同样的竞技水平。
著名物理学家费曼把科学研究视为观看天神玩象棋游戏,发现物理学规律就是努力探究天神下棋的规则。现在,人工智能程序也能这样做了,甚至比人做得还好。
在大自然这盘大棋里,“观棋不语真君子”的时代已经过去了,曾经的观棋者现在化身为天神,未来已经到来了!
费曼:探究世界的游戏规则
http://blog.sciencenet.cn/blog-1319915-1208032.html
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
https://arxiv.org/abs/1911.08265
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社