||
今天会议的主题是《大数据在应用工作中的应用》,我想先来谈一下大数据思维。
我个人在十年前出版过一本书《数据挖掘技术及其应用》,写了54万字,应该说,技术性很强,我理解,今天的大数据就是以前的数据挖掘,但是大数据的名字显然要好听多了,显得高大上一些,而挖掘的感觉就是挖煤,要low一些。不过,其间的内容差异不大,都是在海量数据中发现规律,这些规律和统计规律不在一样。
那么,大数据思维有四个特征,区别于以前的小数据或者统计思维。
一是所找寻的规律从因果关系转换到相关关系。对于地震尤其如此,以前我们太专注于寻找因为什么所以地震这种因果关系了,常见的逻辑有因为鹦鹉有反应所以会地震,还有因为蛇、鸟、昆虫有某种动作,所以有地震。但是直到今天,我们才发现临震预报中所蕴含的这种因果关系其实是很难发现的,至少一些我们认为存在因果关系的现象后来被证明不那么靠谱。而气象早就开始用概率来预报,此时看上去似乎依然是因果关系,实际上展示的是一种强相关关系。未来,地震的预报是否也可以用概率的形式表达,我想并非没有可能。我们认为在世间万物中能找到某种程度的相关已经不容易了。
二是关注的规则从通用型变成特殊性的规则。我们比较熟悉的数据分析是民意测验,在特朗普和希拉里的总统竞选中,测验结果就是后者获胜,但是结果却相反,搞调查的人就说,民意调查最后给出来的是抽样样本中的大多数,而这一规则其实是符合统计规律的,而且后来总统竞选的结果也说明希拉里是得到了更多的票数,但是却输在了选举人票上,而选举人票本身却是无法调查出来的。那么,类似于这种情形,我们寻求的就不能是惯常规律下的通用规则,而是某种给定条件下的特殊规则,后者更是大数据分析中要找到的东西。
三和二类似,是从规范群体中脱胎出来对例外个体的机理进行阐释。人民群众会在创造历史中起到一定的作用,但是扭转历史转向的却还是所谓英雄人物,也就是说,例外个体将起到起承转合的作用,改变历史进程,那么,1%的不那么符合我们既有认知的数据中就会蕴含了这种个体规律,从大量数据的少量部分中找到其例外性,并对它的影响逻辑链条进行分析,就是今天大数据技术要做的事情。我们眼中的灾害,不管是地震还是暴雨,其实都是正常生活中的例外,个例、噪声、孤立子,其规律不能从大量日常数据中获取,只能分析异常数据。
四是从分散思维到总体思维,我们以前处理数据的时候,因为技术手段不够强,很难找到整体下的某种规律,哪怕是异常规律。所以,只能分散来看,但是,今天的数据存储技术也好,还是数据处理技术也好,都足以处理我们手头那些海量数据了,那么,总体中呈现出来的某种我们希望找到的规则就会在众多分散的集合中涌现,我们之前属于一叶障目的话,现在就是连泰山到黄山一起从天上看到了。灾害中恰好会有局部“身在此山中”“云深不知处”,而整体上则完全可以实现洞如观火、俯瞰世界了。灾害的规律就是这样,拿出一张全国地图,其中的相关性会在我们眼中显现出峰回路转的状态。
我们采用大数据的方式来分析日本灾害文化。比如日本人对于死亡的态度,就可以看到一些端倪,日本的小说作品中,很难得不说到死亡,因为灾害造就的死亡现象太普遍了,到了今天依然如此,从描述一次精心策划死亡的《失乐园》到描述八次死亡的《挪威的森林》,从《筱竹丛中》改变成的著名电影《罗生门》到《1Q84》以及更久远的《和歌》、《源氏物语》,里面展现出来的死亡可谓汗牛充栋,分析这些内容,我们会发现日本列岛对于死亡的刻画无所不用其详,而中国人的作品中对于死亡基本上是一种回避的态度——别提了,让它过去吧——之类的风格比比皆是。
不同灾害的范围与深度直接影响到了不同国度或地区对于死亡的态度,无常观、死亡观、危机观都是不一样的。
那么,灾害后的秩序,比如日本灾后人们就会比较守已经确定的规则与秩序就成为一种必然,而对于我们来说,就很难不慌乱。
同样能够告诉我们灾害文化的是日本诸多的侦探小说,逻辑、因果关系是灾害过后必须要总结并提炼的,有了这些,未来的风险如何规避与应对就会有路可寻,这些严密的链接关系在侦探小说里就体现得淋漓尽致,而中国的侦探小说再怎么写也难以达到日本的那种地步,原因就在于灾害文化已经形成,它且无处不在。
分析了诸多的作品也好,日本人的行为也好,我们会发现某种令人振奋的东西,以前一些零星的规律在更多的同类风格的领域呈现出一致性,大数据能够告诉我们的是我们之前有感觉但是不确切的地方。
这些内容都将出现在我写的新书《樱花残——灾害视角下的日本文化》中,希望它抓紧印刷出来,到时候我将愿意和大家分享其中的观点,并接受大家的批评。
同样的,中国的灾害文化也是有迹可循的,我们也准备撰写一本《中国灾害文化》的书。
谢谢大家的聆听!十分钟已经到了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 23:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社