Control is hopeless分享 http://blog.sciencenet.cn/u/controlhopeless I just wonder how things are put together and then what happens

博文

李小帅能打败AlphaGo吗

已有 2962 次阅读 2017-1-21 10:54 |个人分类:胡言乱语|系统分类:观点评述| 人不定, 天不败

科学网天成帅哥,人好、学问好,行侠仗义,风风火火闯世界,不但在西工大呵护良善、保家卫国,现在或者也曾在欧洲给牛顿们看家护院了。

天成帅最近又有新工作,是俺熟悉的领域:滤波。滤波就是从现实信息里,用数学优化方法找到实际上观测不到的信息,比如数学王子高斯就是用最小二乘优化方法预测谷神星。18几几年,“谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。”以上来自百度。因为谷神星被太阳遮挡,大家都观测不到谷神星了,但高斯能算出来,高斯的最小二乘是滤波算法的祖宗,虽然后来的科学研究越来越复杂,但本质上就是优化。

AlphaGo或者它的后代Master就是优化的杰作。优化是啥,在俺这个三流教授眼里,就是最优控制,就是Bellman的动态规划,就是Pontryagin的最大值原理,就是Bryson为F4战斗机设计的最小时间爬升路径。

AlphaGo的本质就是依靠那些最优控制算法为棋盘上的每个位置打分。神经网络提供的监督式学习使得打分成为可能。

当分数造假,无论什么政党,那一切繁荣都是虚幻的。我们看到,AlphaGo掉线了,分数打错了,于是李世石胜了。

AlphaGo的胜利告诉我们,这个时代早已不是牛顿、欧拉、白努力兄弟那样科学家的隐士时代,它以击败人类棋手的方式让这个时代告别了Bellman们,而正是Bellman们为AlphaGo提供了近似动态规划算法,所谓的Markov决策的实现,就是强化学习。

研究复杂系统的黯然失色,制造复杂系统的人独领风骚,这就是一个平台的时代,单打独斗的是侠客,群殴的是国家机器。侠客们现在被Master60连败,这是怎样的胜利呢,它在为传统的科学家搭建了最后的舞台,大幕过后,风潇潇兮,高斯们绝后,棋手们绝技。

于是,世界进入了国家机器式群殴的时代,是特朗普们的时代,从此以后是人民的时代了,呼儿嗨哟。



https://blog.sciencenet.cn/blog-669170-1029016.html

上一篇:中国科学家已经发起联合抵制诺维信公司
下一篇:美国是你们的理想国还是水泊梁山
收藏 IP: 1.202.81.*| 热度|

1 李楠

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 18:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部