|||
https://blog.sciencenet.cn/blog-485553-1527390.html叶春浓
人工智能:大数据、模型与数据驱动
|
莱特兄弟之前,人们发明飞机的思路是模仿鸟类飞行,希望造出能振翅高飞的器械,这种尝试无一例外都以失败告终。莱特兄弟改变了思路,他们用的是空气动力学原理,而不是仿生学。
到了20世纪70年代,人们开始尝试另一种思路,即数据驱动。什么是数据驱动?回答这个问题之前,先看看计算机的工作流程。简言之,计算机工作流程是:获取数据——建立模型——分析决策。
根据计算机的工作流程,自然要问:解决某个具体的问题,该用什么模型?下面从我的工作经历说起。
我查找了文献,发现主要有三种模型,第一种是利用坐标变换,建立参数方程;第二种是利用复数矢量法,建立复数矢量方程;第三种是通过建立齿廓法线,反转求解直线共轭齿廓方程。三种模型如下图:
这三种模型不但复杂,且无法解决我当时遇到的实际问题(齿轮加工)。忘了在什么的启发下,我想到读研时学过函数逼近理论,于是重新翻了数学教材和一些数学著作(如《数学,它的内容、方法和意义》)。发现俄国数学家切比雪夫在设计机械时提出了最佳一致逼近的设想,后来,德国数学家魏尔斯特拉斯证明了:可以用代数多项式以任意给定的精度逼近任何连续函数。

人们期望计算机能解决的问题,比齿轮复杂得多。很多时候,完美的模型根本不存在,即使存在,找到它也不容易。有人想到用不太完美的模型,或者用多个不太完美的模型进行组合达到完美的效果。
y=ax2+bx+c
科学技术的进步很多时候都要看运气,人工智能也不例外。1972年康奈尔大学的贾里尼克教授去IBM做学术休假。那时的IBM是巨无霸,拥有大量数据,贾里尼克教授无意中利用了IBM的数据和算力优势。发现随着数据量的增大,训练效果会越来越好,而过去的办法(仿生学),很难受益于数据量的增大。
据一些人说,如果没有李开复的工作,他的导师不可能获得图灵奖,可见,李开复的名声是名副其实的。继李开复用数据驱动办法,解决语音识别之后,很多计算机科学家考虑能否用数据驱动解决其他智能问题。
近20年的波折主要原因是数据量不足,直到90年代互联网的兴起,使数据的获取变得容易,数据驱动方法才逐渐见到光明。其实有些领域到21世纪头几年还很难获得足够的数据,比如2006年李飞飞训练视觉智能时,还很难获取到足够的图片。有些问题直到现在可能都还很难获得足够的数据。
谷歌有什么秘诀呢?其实说出来太没创意了,方法还是老方法,只不过谷歌拥有比其他研究机构多几千上万倍的数据而已。量变引起质变,谷歌用大数据训练出来的模型远远优于其他团队。
显然,正如它的名称,数据量要大。但是不能把大数据等同于大规模数据。比如你拥有全中国14亿人的出生年月日数据,这个数据量不可谓不大,但是这么大规模的数据量除了能够统计出全国人的年龄分布之外,并没有太大的意义。统计全中国人的年龄分布,随机抽一亿个,甚至只需要几百万就足够了。
大数据主要有三大特征:量大、及时、多样(完备)。当然并不是所有数据都要同时满足这三个特征,尤其是及时性。比如研究清朝的GDP,显然不需要及时的数据。但如果要通过交通数据来指导当下人们的出行,显然不能用上周的数据。
也许你听过幸存者偏差,数据缺乏多样性就容易出现幸存者偏差。很多商业图书的套路是,一个成功企业家总结他为什么成功,隐含的意思是:让我来告诉你如何像我一样大获成功。但是采用跟成功者差不多管理方法的,失败可能还多于成功。所以我们不能只向成功者学习,也要吸取失败者的教训,只是失败者一般不写书。
为什么AlphaGo能战胜围棋天才李世石?我们可以从数据和能量的角度估算一下。
AlphaGo用如此大的数据量训练出来的模型,碾压李世石听起来就不足为奇了。
AlphaGo跟李世石对弈时,谷歌用了1920个中央处理器(CPU),280个图形处理器(GPU),几十台服务器同时工作。李世石的所有决策,只靠他一个头脑,真是以大欺小,以强欺弱,太不公平了。
跟李世石对弈时,谷歌每个CPU每秒可完成5000-7000亿次运算,每个GPU每秒可完成7万亿次运算,这么大的计算量,如果用早期的计算机,至少要400万座三峡电站满负荷运转给计算机供电才够。
4.问题
但现在人工智能仍处于初级阶段,接受大数据、人工智能思想的人不多,有实际行动的更少。当然现在人人都用AI,那只是当高级“百度”使用。
你是否遇到客户不愿意给你提供数据的情况?换句话说,客户不愿意让掌握设备的运行数据。如果遇到,怎么解决?
1.《智能时代》,作者:吴军。
<p pingfang="" sc",="" system-ui,="" -apple-system,="" blinkmacsystemfont,="" "helvetica="" neue",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" font-size:="" 17px;="" letter-spacing:="" 0.544px;="" text-align:="" justify;="" text-wrap-mode:="" wrap;="" background:="" rgb(255,="" 255,="" 255);="" line-height:="" 2em;="" box-sizing:="" border-box="" !important;="" overflow-wrap:="" break-word="" !important;"="" style="overflow-wrap: break-word; margin-top: 0px; margin-bottom: 16px; padding: 0px; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); outline: 0px; max-width: 100%; min-height: 1em; color: rgba(0, 0, 0, 0.9);">2.《我看见的世界》,作者:李飞飞。转载本文请联系原作者获取授权,同时请注明本文来自叶春浓科学网博客。链接地址:https://blog.sciencenet.cn/blog-485553-1527390.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-4 07:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社