|||
这个命题是在和老婆聊天的时候,不经意跑出来的,不知道是否已经有了相关的研究,姑且记录一下也和感兴趣的朋友分析一下自己的想法。
标题里的提到了两次数据,只是前面加的限定不同,一个大,一个小,那要如何区分这个大和小呢?
在我这里,大 和 小 不仅仅是数据量的问题,还是要考虑其在使用中的目的。
“小”数据:指的是要进行分析的,核心的数据,比如为了某个企业为了对其销售情况进行分析和预测,它向研究者提供了其的10年销售数据,这个数据就是小数据,因为他对这个分析的目的性很强。
“大”数据:指的收集来的各种各样的目的性不是很明确的一般性数据,还是上面的例子,还是要分析该公司的销售情况,那么,如果我收集了那10年的天气数据,高速交通数据,社交网络数据,论文数据等,这些数据构成额集合,我就称为“大数据”。
好了,定义或许还不是很清晰,但是应该可以有个大概大概的感觉了吧。我们回到正题了。
传统的数据挖掘和数据分析,在这个语境下,无论数据量多大,都是“小数据”分析,为什么?因为他们只关心核心数据,比如沃尔玛超市的20年全球销售数据,数据量够大把,但是如果只局限在这个数据里,那么还是进行的传统的数据挖掘。
那我的题目说的是什么呢?
是说,在我们进行任何的小数据分析之前,我们要准备一个很大的无差别收集的大数据集,这个数据集包含各种各样的数据,而且要保持不断的更新。
那么在进行小数据分析的时候,我们就可以把这个特有的小数据放到我们那个大数据背景下进行分析了。
为什么要这样做,这就好像对历史人物的分析,常说要放到当时的历史环境中去,而不能孤立的去分析他的选择。数据也是一样,我们也应该把数据放到当时的环境中去分析。传统的数据挖掘方式,都是把数据孤立出来的,比如要分析沃尔玛的销售状况,那么就去分析沃尔玛的历史交易数据而已。不会考虑当时的社会其他问题。
那么,如果我们分析了2001,2002沃尔玛的交易数据,发现成交量大幅下滑,就得出沃尔玛销售出现了问题的结论,结果原因很可能是因为2002年非典,大家去超市少了。
为了这些未知的社会因素带来影响,我们需要把数据放到更大的数据背景下进行分析。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 13:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社