|
大数据这个词如今已是日常用语。笔者作为门外汉 只能粗浅地认为是对各种数据的收集整合分析,例如Google通过人们搜索相关关键词的时间分布预测流感的爆发时间 (这应该是个坏例子,因为显然这个数据统计得出的推论是存在很大漏洞的)。无意间看到麻省理工学院正在运行的一个项目。感觉很有趣,试着给大家解释解释。
项目的名字叫 You Are Here。我给起了个中文名字~双百计划。因为项目最终的目标是为一百座城市绘制一百张地图。您可能会问了,地图还能玩儿什么花样?无非是街道建筑,山河 湖海。顶多加个等高线,标上厕所麦当劳啥的。其实在大数据的今天,许多数据都可以以地图的形式表达出来。
举个例子,纽约市每年老鼠的活动周期和范围如何 变化?什么什么?老鼠?怎么监控?其实很简单,采集的数据来自于市政府的市民举报电话。包括目击老鼠活动,发现老鼠活动迹象以及举报不卫生环境成滋生老鼠 温床。在三年半的时间里一共积累了38000个电话,依时间制作成动态地图。以下链接为纽约市老鼠地图。其实即使不看,大家也能猜到些结果:夏天老鼠活动 更频繁,人口密集处老鼠更多,贫困地区老鼠易出没。所以你想在纽约看老鼠,请在七月的夏夜光顾布鲁克林区。哇, 这个地图好有用嘢!
www.youarehere.cc/j/rats/newyork.html
再说个实际商业价值更明显的:曼哈顿过去五年住宅房价变化。数据来源是市政府的经济部门。以中国城为例, 除2010 年以外,其余四年年增长超过7%。嗯,我知道你想说啥,这个和中国比简直惨不忍睹啊。
www.youarehere.cc/w/property-value/manhattan
目前网站已经开发了18类数据地图,包括出生 率,住院率,涂污发生地,噪音情况,绿化率,自行车事故率(此数据已被市民用来督促市政府改善路况)咖啡店餐馆分布等等。前面提到数据的整合,如何将这些 不同格式的数据库衔接转化?答案是API~Application Programming Interface(一群程序猿读到此情不自禁地嘎嘎狂笑起来),翻译过来叫应用程序接口。感兴趣的读者自己研究吧,我就不献丑了。
最后引用网站说明里的一句话作为结束语:
But mostly--and this is important--we are doing this because it's fun.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社