||
更确切地说,应该叫动态大数据系统。
什么是动态?所谓动态就是与时间有关。学术地讲,动态系统就是由带有时间微分的常微分/偏微分方程描述的系统。动态系统的数据一般是以时间序列的形式采集存储的。动态系统的例子太多了,电子线路、机器、工厂、公司、手机、通讯网络、飞机、飞鸟、汽车、火车、人口、股市、国家经济、人体、瘟疫,等等等等,都是动态系统。那什么东西不是动态系统? 回答是,死东西。
动态大数据(系统)的研究,就是对大数据建立动态数学模型(动力学模型),基于模型对系统进行分析、诊断、预测、控制/优化。
谁最擅长动态系统?本人认为,除了研究微分方程的数学家们,自动控制、力学和气象学/天气预报应该是前三名。(如果漏掉哪个学科还请指正。)
大数据研究者们是否已提出动态大数据(系统)的概念?本人认为没有。其一,那本有名的《大数据》,作者通篇没提动态的概念;其二,科学网周涛的有关大数据的博客,也没有提到动态的问题。(如果有大数据专家认为“动态大数据系统”已有人提出并研究,本篇博文作废。)
研究动态大数据系统有什么优点?提出两条就够了:
(1) 更精确的模型。跟所有学科一样,大数据研究的核心是建立数学模型。我说过,搞不出模型,大数据就是大垃圾。如果大数据是发生于动态系统,动态模型的精度就会高于静态模型的精度。用脚后跟想一下就知道模型精度越高越好用。本人以为,目前大数据模型大部分是静态关系。
(2) 搞清楚因果关系。《大数据》里有一句话很可笑、很误导,那就是“因果关系不重要,知道相关性就够了”。以这句话为指导,Amazon网购的推荐系统会给一位买笔记本电脑的顾客推荐电脑包,这是对的;但同时会给一位买电脑包的顾客推荐笔记本电脑,这是不管因果关系的笑话。当然,知道相关性比不知道要强些,可以用来赚钱。但知道因果关系更牛,可以赚更多钱。《大数据》作者说因果关系不重要是因为他对动态系统的无知。假设时间变量u(t) 是因,y(t) 是果,搞控制/辨识的人都知道如何确定因果关系。怎么确定就留作习题吧。你是学控制的你不知道怎么确定因果关系?那你白学了。
本博客的重要目的是,学我的导师P. Eykhoff 教授,提出一个新的学科(方向):
“动态大数据系统”
— 朱豫才 2017.01.15
这可看作是自动控制的一个新方向,也可作为大数据与自动控制的交叉学科。希望有兴趣的同学报我的硕士/博士/博后,让我们创出一个新天地。也希望与大数据研究者合作。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 07:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社