博文

[转载]人工智能:大数据模型与数学驱动

已有 842 次阅读 2026-4-2 16:49 |个人分类:zz|系统分类:科研笔记|文章来源:转载

https://blog.sciencenet.cn/blog-485553-1527390.html叶春浓

人工智能：大数据、模型与数据驱动

已有 776 次阅读 2026-3-26 06:19 |系统分类:观点评述

莱特兄弟之前，人们发明飞机的思路是模仿鸟类飞行，希望造出能振翅高飞的器械，这种尝试无一例外都以失败告终。莱特兄弟改变了思路，他们用的是空气动力学原理，而不是仿生学。

到了20世纪70年代，人们开始尝试另一种思路，即数据驱动。什么是数据驱动？回答这个问题之前，先看看计算机的工作流程。简言之，计算机工作流程是：获取数据——建立模型——分析决策。

根据计算机的工作流程，自然要问：解决某个具体的问题，该用什么模型？下面从我的工作经历说起。

我查找了文献，发现主要有三种模型，第一种是利用坐标变换，建立参数方程；第二种是利用复数矢量法，建立复数矢量方程；第三种是通过建立齿廓法线，反转求解直线共轭齿廓方程。三种模型如下图：

这三种模型不但复杂，且无法解决我当时遇到的实际问题（齿轮加工）。忘了在什么的启发下，我想到读研时学过函数逼近理论，于是重新翻了数学教材和一些数学著作（如《数学，它的内容、方法和意义》）。发现俄国数学家切比雪夫在设计机械时提出了最佳一致逼近的设想，后来，德国数学家魏尔斯特拉斯证明了：可以用代数多项式以任意给定的精度逼近任何连续函数。

论文.jpg

人们期望计算机能解决的问题，比齿轮复杂得多。很多时候，完美的模型根本不存在，即使存在，找到它也不容易。有人想到用不太完美的模型，或者用多个不太完美的模型进行组合达到完美的效果。

y=ax²+bx+c

科学技术的进步很多时候都要看运气，人工智能也不例外。1972年康奈尔大学的贾里尼克教授去IBM做学术休假。那时的IBM是巨无霸，拥有大量数据，贾里尼克教授无意中利用了IBM的数据和算力优势。发现随着数据量的增大，训练效果会越来越好，而过去的办法（仿生学），很难受益于数据量的增大。

据一些人说，如果没有李开复的工作，他的导师不可能获得图灵奖，可见，李开复的名声是名副其实的。继李开复用数据驱动办法，解决语音识别之后，很多计算机科学家考虑能否用数据驱动解决其他智能问题。

近20年的波折主要原因是数据量不足，直到90年代互联网的兴起，使数据的获取变得容易，数据驱动方法才逐渐见到光明。其实有些领域到21世纪头几年还很难获得足够的数据，比如2006年李飞飞训练视觉智能时，还很难获取到足够的图片。有些问题直到现在可能都还很难获得足够的数据。

谷歌有什么秘诀呢？其实说出来太没创意了，方法还是老方法，只不过谷歌拥有比其他研究机构多几千上万倍的数据而已。量变引起质变，谷歌用大数据训练出来的模型远远优于其他团队。

显然，正如它的名称，数据量要大。但是不能把大数据等同于大规模数据。比如你拥有全中国14亿人的出生年月日数据，这个数据量不可谓不大，但是这么大规模的数据量除了能够统计出全国人的年龄分布之外，并没有太大的意义。统计全中国人的年龄分布，随机抽一亿个，甚至只需要几百万就足够了。

大数据主要有三大特征：量大、及时、多样（完备）。当然并不是所有数据都要同时满足这三个特征，尤其是及时性。比如研究清朝的GDP，显然不需要及时的数据。但如果要通过交通数据来指导当下人们的出行，显然不能用上周的数据。

也许你听过幸存者偏差，数据缺乏多样性就容易出现幸存者偏差。很多商业图书的套路是，一个成功企业家总结他为什么成功，隐含的意思是：让我来告诉你如何像我一样大获成功。但是采用跟成功者差不多管理方法的，失败可能还多于成功。所以我们不能只向成功者学习，也要吸取失败者的教训，只是失败者一般不写书。

为什么AlphaGo能战胜围棋天才李世石？我们可以从数据和能量的角度估算一下。

AlphaGo用如此大的数据量训练出来的模型，碾压李世石听起来就不足为奇了。

AlphaGo跟李世石对弈时，谷歌用了1920个中央处理器（CPU），280个图形处理器（GPU），几十台服务器同时工作。李世石的所有决策，只靠他一个头脑，真是以大欺小，以强欺弱，太不公平了。

跟李世石对弈时，谷歌每个CPU每秒可完成5000-7000亿次运算，每个GPU每秒可完成7万亿次运算，这么大的计算量，如果用早期的计算机，至少要400万座三峡电站满负荷运转给计算机供电才够。

4.问题

但现在人工智能仍处于初级阶段，接受大数据、人工智能思想的人不多，有实际行动的更少。当然现在人人都用AI，那只是当高级“百度”使用。

你是否遇到客户不愿意给你提供数据的情况？换句话说，客户不愿意让掌握设备的运行数据。如果遇到，怎么解决？

1.《智能时代》，作者：吴军。

<p pingfang="" sc",="" system-ui,="" -apple-system,="" blinkmacsystemfont,="" "helvetica="" neue",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" font-size:="" 17px;="" letter-spacing:="" 0.544px;="" text-align:="" justify;="" text-wrap-mode:="" wrap;="" background:="" rgb(255,="" 255,="" 255);="" line-height:="" 2em;="" box-sizing:="" border-box="" !important;="" overflow-wrap:="" break-word="" !important;"="" style="overflow-wrap: break-word; margin-top: 0px; margin-bottom: 16px; padding: 0px; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); outline: 0px; max-width: 100%; min-height: 1em; color: rgba(0, 0, 0, 0.9);">2.《我看见的世界》，作者：李飞飞。转载本文请联系原作者获取授权，同时请注明本文来自叶春浓科学网博客。链接地址：https://blog.sciencenet.cn/blog-485553-1527390.html

转载本文请联系原作者获取授权，同时请注明本文来自冯积社科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1089082-1528583.html

欢迎参加科学网十佳博文评选活动！

主办单位：