学到老Never too old to learn分享 http://blog.sciencenet.cn/u/tangchangjie

博文

看大牛们说大数据 –- 《海量数据分析前沿》读后感 精选

已有 31152 次阅读 2015-7-14 15:30 |个人分类:教学科研|系统分类:海外观察|关键词:大数据,海量数据,新书,读后感,| 大数据, 新书, 读后感, 海量数据

看大牛们说大数据 –- 《海量数据分析前沿》读后感

  一本姗姗来迟但未过时的好书 两个月前(2015年5月),清华大学出版社出版了由华东师大周傲英教授及其团队翻译的《海量数据分析前沿》. ( Frontiers in Massive Data analysis),此书由美国国家学术院研究委员会组编,2013年年底出版。中译本出晚了一点,但值得一读。  

  “大数据“已由热词升级为熟词  “Big Data” 在2012年成为美国社会中仅次于 "fiscal cliff(财政悬崖)"的第二热词; 在中国的升温来得晚一些,2014年在中国的网络热词中,名列第三,前两名是  “改革”和”并购”(可见,政治、经济之后才是技术)。

   到2015年,大数据一词不只是由温而热,而是由热而“熟”,成了人们熟练使用,用来分析其他热词的工具词。例如,人们见到了如下的文章 《“大数据分析两会热词:’四个全面’,’互联网+”》,《大数据说春运》,《大数据和….> 。

  近两年,在数据处理圈子内外,过去做数据的,和过去不做数据的,都言必称大数据,以至于有人担心,已经够热了,再加热就煮烂(滥)了。

  在鱼龙混杂的时候,人们要问,这一领域的大牛们是怎样说大数据的?   

   信息时代选书看作者  我和我的同学这一代,经历过信息饥渴的年代,那时候八亿人看八个样板戏,年轻人渴书,朋友交流最好方式就是借书,说书,甚至抄书(参见博文《看蜀韵、闻书香、遥想当年手抄本-- 书博会有感(图&文)

  如今,海量信息时代,人们发愁的不再是找不到书,而是如何从书山文海中挑选适读材料。正如选影视时看导演、编剧和演员,选书的方法之一,是选作者群,选出版社。

  《海量数据分析前沿》一书的作者群和编审群有多牛? 留一点悬念,也给一点线索:七十多位国际顶级专家参加了对此书撰写和编审工作,他们来自 UC 伯克利,卡内基梅隆,耶鲁大学,密西根大学斯坦福大学,MIT,谷歌,美国喷气推进实验室,国防分析研究所,….

  读者在书中,会看到三页篇幅列出的名单,是对此书撰写、编审做出贡献的三个委员会(海量数据分析委员会、应用和理论统计委员会,数学科学应用委员会)的人员名单。有人说,学术新兵要进入一个领域,就要知道这个领域的牛人,这算是阅读的附加收获吧。  

  大数据和海量数据的关系:前些年,海量数据一词是数据处理领域常说常听的词汇,如今人们,都说大数据了,虽然深者见深,浅者见浅,都更时髦了,大数据和海量数据两个概念到底有什么关系?

  此书译者序中有一句话,“按这本书的观点,大数据的本质是海量数据分析“。

   笔者想把把这句话进一步展开,“大数据”是比海量数据更广义的概念,大数据中包括两部分,(1)对象部分-海量数据是被处理的对象;(2)工具部分--分析处理海量数据的工具,方法,算法和过程。  

  用面向对象编程作比喻 为不落俗套地把大数据与海量数据的关系理清,同时介绍此书的主要章节的内容,杜撰了一个面向对象编程中的对象例子。

  面向对象编程是计算机专业大一学生的必修课,近两年,在成都中学生科技竞赛上,笔者见到,一些中学生,也能熟练运用JAVA,C++,写出很有创意的移动应用,有iPhone的,也有安卓的。这些 聪明的中学生不但能写程序,还能谈思想,经得起诘难,通得过答辩,说明面向对象编程技术已经比较普及,不算高深科技了。

  面向对象编程中的对象有两个基本要素:

  (1) 成员属性(以智能汽车为例, 品牌,动力类型,功率,缸容,缸容,时速,…..是成员属性)

  (2) 成员方法(以智能汽车为例, 启动,制动,转弯,后退,换挡,...,是成员方法或成员函数,它们有行为的内涵或动作的外延,能改变对象状态,编程中,通过函数或过程调用实现)。

   当然还有一些特性,如封装,继承和重载。

 

  下面是杜撰的一个抽象对象BigData: 其中,按编程惯例,在双反斜杠符号//后面的是注释。     

  BigData   //大数据

      {  //成员属性 部分

      海量数据源 ; //见该书第2章 海量数据来源

      海量数据特征; //见该书第3章 大、多、快、疏等4个V的数据

      大数据表示;   //见该书第5章 

          ……      

       

       //第二部分,成员函数,处理大数据的方法,算法,函数,过程

           建模 (频率学,贝叶斯,无监督学习,可视化,众包) //见该书第7章

      采样;/见该书/第8章

      七个计算巨人(统计,N-提问题,图论计算,

            线性代数,优化,积分,对齐等) //见该书第10章

         …….

      }

   相信读完该书,大多数读者会觉得中译本看起来还是要快一些,成本(包括时间和经费)都低一些。  


  还是有一点遗憾 由于各种原因,中译本在两个月前才出版,比期待时间晚了一年多,不能说不是遗憾。

  计算机科学的知识,日新月异。一年,在计算机界能发生什么事?很可能,芯片性能增加50%以上,数据量增加50%以上,一年前的计算冠军(算法或硬件),可能已经沦落为小三了。

   幸好,这是一本说原则,说思想,说框架的书,高屋建瓴,反而不容易过时。

   读完之后,如果觉得从牛人们那里学到了一招两招,祝贺你开卷有益 ;

   如果你发现你的见解已经超过、或部分超过了这本书,恭喜你,你的水平至多比牛人们晚一年,或者,已经站在了大数据研究前沿。

   总之,正如译者序中所说,这本书,来迟到了 ,还没有过时,值得一读。 

相关博文 

 数据库界的四位图灵奖得主系列博文 

 趣味数据挖掘系列 

       其它系列博文的入口    唐常杰博客主页    科学博客主页



http://blog.sciencenet.cn/blog-287179-905332.html

上一篇:Single Track :国际会议办会方式的回归,兼议应对的方法
下一篇:Map-Reduce的直观解释--生活中的大数据技术

37 赵美娣 杨正瓴 赵君渝 洪海云 于远帆 李佳苗 尧顺雨 祝贤明 张卫 张忆文 李天成 徐晓 曾宇怀 陆泽橼 黄永义 王金良 王继华 袁斌 赵凤光 罗汉江 饶东海 刘淼 汤俊 李竞 秦健勇 李伟钢 蒋永华 朱晓刚 刘洋 仝博 强涛 张利华 zhoulong yzqts RMB luxiaobing12 zzseng

该博文允许注册用户评论 请点击登录 评论 (39 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-13 17:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部