孟津的博客 (Meng Jin's blog)分享 http://blog.sciencenet.cn/u/jinsblog

博文

阿狗归零成精 精选

已有 10152 次阅读 2017-10-20 10:01 |个人分类:有感而发|系统分类:生活其它|关键词:阿尔法狗,围棋

           年初我写了篇博文《观聂卫-阿狗重出江湖》,是观聂卫平和阿狗大师(AlphaGo Master)弈的感想。那一回,阿狗大60比零胜了世界围棋界众多顶尖高手,然后宣布退役。好家伙,赢了就归隐江湖,让人恨得牙痒痒。当然,很多人有话说,阿狗大师能赢,全在于是下快棋,如果慢棋,人也许有机会。后来,柯杰和阿狗大师下了三盘慢棋,结果大家都知道,恩怨是非可以了断了。

           本来以为有了这个测试后,阿狗也许可以去找点什么正经事做,只知道玩,不是好狗,能咬耗子也不错,总是有点用。结果阿狗团队现在又冒了一泡,出人预料。这回出来的是很谦虚的阿零(AlphaGo Zero), 没有阿狗大师那么嚣张,但却是更令人可怕了。首先,它已经不屑跟人下棋了,可以说绝对没有任何人是对手。它只和机器下。从当年以4:1胜了李世石的版本,到60:0胜了众多棋手的大师版,阿零和它们对弈的结果是100:0。有关的文字发到了《自然》上,网上可以找到,我就不贴了。但两篇文章体现的概念却非常不同,这个从两篇文章的题目就可以看出。            

           过去的版本,是基于人类的棋谱,通过机器学习,最终在对弈中可以选择最佳的应手,从而取得胜利。但阿零却不是这样,它完全没有从几千年的人类对弈棋谱中学什么,而是在现行规则下,从零开始,自己对弈,并在其中学习提高,最后达到超人类的境界。从他们的文章中可以看出,阿零使用的算法,是所谓的强化学习(reinforcement learning),我不知道有没有更专业的译法。从零开始学习,不受人类围棋经验的影响和约束,到进入超人类弈棋的境界,花了30-40天时间,这个可以从DeepBlue网站上看到(见下面附图)。对于不懂数学和人工智能的我来说,有个问题不知这里的高手能否回答:从阿零的学习曲线看,40天以后,如果它接着练下去,是否可以达到一个极限?也就是说,就现有的规则和19X19棋盘,它永远也达不到Elo 6000。或者说围棋的变化还是有限的?不管怎么说,这个阿零的出现,说明人类对事情的认识,还是有局限性的。抛开人类的局限性,阿零的算法能够达到更佳的结果。但从最后列出的棋谱看,也可以说人类的一些基本行棋“定式”,还是围绕在最佳选择上的。这个从阿零开局就可以看出来,基本上收敛于从角部落子,和人类高手过招的思路非常相似。就围棋来说,很多可能性人类都还没有尝试过。当然,人类有自己的一些追求,比如说棋型的美感,这个阿零能否理解。但那种美感,对于胜负来说,意义在什么地方呢?

           看了一些对局,还是很感叹。很想知道,阿零跟九段棋手下让子棋是个什么状况,能让到几子。贴一份阿零对阿大师的对局谱,以及阿零自己左右手搏击的棋谱。这些棋谱,在Nature文章的辅助材料中可以看到,我挑了两个最简单的放上供参看。不太清楚阿零自我博弈的胜负率,是否会是50%对50%。


上面四张阿零学习过程图,来自DeepMind网站,特此鸣谢。


阿零(执黑)对阿大师


阿零自己打自己

棋谱来自Nature, 特此鸣谢。



http://blog.sciencenet.cn/blog-4699-1081679.html

上一篇:基础与应用研究谁重要—钱说了算
下一篇:十年博客十年秋
收藏 分享 举报

25 张磊 李颖业 赵凤光 彭思龙 杨波 姬扬 蒋永华 黄永义 陈楷翰 康建 周健 强涛 钟炳 林涛 徐志刚 徐明昆 杨正瓴 苏德辰 陈志飞 彭真明 朱晓刚 武夷山 陈绥阳 俞立平 刘钢

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-11-23 17:06

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部