dwchen的个人博客分享 http://blog.sciencenet.cn/u/dwchen

博文

人工智能科研新模式:AlphaGo的三板斧 精选

已有 6963 次阅读 2016-3-16 07:55 |个人分类:科技创新|系统分类:观点评述

    举世瞩目的人机围棋大战终于落幕了, AlphaGo4:1 轻松击败围棋世界冠军李世石,展现了其超强的计算、推理、学习能力。围棋变化多端,所有的变化就有361的阶乘,比宇宙所有的原子个数还要多很多很多倍。可以说,古今中外几乎没有一盘围棋是完全相同的。AlphaGo不可能采用穷举的方法,因为再高级的超级计算机也不能在有限时间内算出所有的可能。围棋可以说是世界上最具有难度的游戏之一,AlphaGo能战胜围棋世界冠军,说明在任何一个单项领域,机器都有可能远远超过人类。好在,李世石扳回1局,给人类的智慧留了些面子,也给了些希望。

     AlphaGo为什么具有如此Powerful的能力?这是我们需要思考的问题。我个人认为研究出AlphaGo的科研团队DeepMind采取了一种新的人工智能科研模式,也可以说是一个新的科研范式:数据挖掘+专家知识+强化学习。还可以戏称为AlphaGo的“三板斧”。

DeepMind团队不是把所有的棋谱都搜集来,形成棋谱大数据。而是有选择性的,从数以千万的专家棋谱中学习。记住,不是啥数据都用,而是比较优秀性能的数据才好使。现在流行大数据,我个人认为不完全对,要把大数据中优秀的数据筛选出来,更加有用。至于他们用的DeepLearning技术,虽然很先进,但是如果从大量普通棋手的棋局中学,再好的数据挖掘技术也没有用。

其次,DeepMind团队总结了围棋下棋的基本规则,再聪明的算法也需要服从围棋下棋的基本规则,就像汽车自动驾驶系统中,绿灯行红灯停,是基本常识。AlphaGo能判断何处可以落子,何时获胜或落败。当前,专家知识针对不同的问题,有的很简单,有的很复杂。

最重要的是,DeepMind团队还采用了强化学习,能在不断试错和探索,能评估棋局态势,能在棋局结束时根据输赢的多少,自动调节算法网络的参数。AlphaGo能与自己下几千万盘棋,从而不断总结提升自己。

AlphaGo从几千万高水平历史棋局中总结经验,从几千万局实战棋局中自我改进,这都远远超过人类的时间和体能的极限。以此类推,在任何一个单项技能方面,人工智能都会远远超过人类。比如,汽车自动驾驶系统,首先可以从大量优秀司机的驾驶数据中挖掘,然后制定一些需要服从的交通规则,然后让车辆在实际或者仿真的环境中反复行驶,不断改进算法参数,必将会取得比人类老司机更高的水平。

万幸的是,人工智能再厉害,也是我们人类想出的思路、研究的算法、编写的代码在背后起作用。好在,人工智能技术目前还没有情感、没有自我意识、不能从事复杂多样性的工作。  

隋唐演义中的程咬金的三板斧气势汹汹,不熟悉的人都被他打得措手不及,但是熟悉之后,就没有那么大的威力了。希望李世石能总结此次比赛的经验,发现击败AlphaGo的技巧,下次再次比试时能轻松获胜。如果真能这样,我们就没有必要担心人工智能超过人类的智慧了。


媒体报道:

张江评论头条:

http://toutiao.com/i6262871133066887681/  

AlphaGo凭借“三板斧”横扫李世石,人类何时能扳回败局

陈德旺




世纪人机大战:李世石 VS AlphaGo
https://blog.sciencenet.cn/blog-57940-962902.html

上一篇:从引力波暗物质再反思“卢刚事件”
下一篇:太科学的研究招生制度与IPDI原理的不兼容
收藏 IP: 27.151.95.*| 热度|

8 许培扬 黄永义 张能立 李颖业 杨正瓴 xiyouxiyou zjzhaokeqin yangb919

该博文允许注册用户评论 请点击登录 评论 (17 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 13:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部