学到老Never too old to learn分享 http://blog.sciencenet.cn/u/tangchangjie

博文

冲浪在数据潮头的实干家----数据库界的四位图灵奖得主(4) 精选

已有 43903 次阅读 2015-5-4 08:01 |个人分类:科普札记|系统分类:人物纪事| 数据库, 图灵奖, 斯通布雷克, Ingress

冲浪在数据潮头的实干家----数据库界的四位图灵奖得主(4)(唐常杰)


   2015年3月25日, 美国计算机学会ACM宣布,MIT的教授迈克尔.斯通布雷克(Michael Stonebraker)获得2014年度“图灵奖”,奖金100万美元,以表彰他的功勋:创造了现代数据库系统的一系列奠基性概念和实现技术,创立了多家公司,成功地商业化了开创性工作。
  
  
1 领潮于新,成功于实
  斯通布雷克一生成就的最大特色,也是他成功的法宝,是“新”与“实”。
 
  他领潮于新,从伯克利到MIT,一直在科研前沿,推动新潮流,也享受新潮流;
    他成功于实,做了很多系统原型,都能跑得动,用得起;
    
  他在数据库界种了两棵树(Ingres树,人才树);两棵树都成活、都枝繁叶茂;
    他创建过多个公司,就像培育科技种子,都卖出了(卖得出去,是一种新活法);
      他写了很多真知灼见的论文,正被高频率地引用。      
  本文拟先易后难,先趣后专,先说成长经历,再说两棵树,最后反思图灵奖得主是怎样炼成的。

  
2 进入普大,结上了图灵缘   
 
  1965年,22岁的迈克尔.斯通布雷克从普林斯顿大学的电气工程系(Electrical Engineering )系毕业,获得学士学位。
  普大是一个与图灵奖渊源极深的学府。首先,图灵本人就在这里获得博士学位(1938年);有图灵之灵,这里先后有9位图灵奖得主在这里学习或工作:依获奖年份,依次是:
  1969:M.Minsky;         1971:John McCarthy;   1976:Dana Scott;
  1976:Michael Rabin;     1986:Robert Tarjan;    1993: Richard Stearns;
  2000: Andrew Yao 姚期智   2004:Robert Kahn;       2014: Michael Stonebraker
有人调侃,这位Stonebraker,这个石头(Stone)制动器(braker),从进入大学就结上了图灵缘。


3  天生的喜新性格:一一副IT科学人的身子骨
  迈克尔.斯通布雷克从普大电气工程系毕业时,是1965年。
  那一年,我和我的同学有点迷惘,中国处于文革前夕,山雨未来,风已满楼;而对于斯通布雷克,那年也是迷惘年,因为越战正酣;据网传,他像那个时代美国大学毕业生一样,曾自我调侃,毕业后有4个去向,越南、监狱(如果反战)、 加拿大或研究生院。
  去哪一个研究方向呢?下面是(网传中的)他的名言了(先译文,后原文) :
 “计算机产业是被下一个最好事物驱动的,所以,我弃旧图新。”   

  The computer industry is driven by the next best thing,

      so we tend to throw out the old when the new comes along.”
  好一个弃旧图新!
  IT事业上的喜新厌旧可不是宋朝的陈世美;科学技术中,人们总是相信“Something new is better”,

怪不得每当手机或电脑上报告,某应用又有新版本时,大多数人都选择更新。
  天生的喜新性格,成就了一副IT科学家的身子骨,难怪他在科研上一生求新。  
  于是,M. Stonebraker 到了密西根大学,去到五大湖旁的宁静校园,一去就是6年,获得了硕士学位(1967)和 博士学位(1971)。  1971年,28岁的 M. Stonebraker完成了博士论文 "The Reduction of Large Scale
Markov Models for Random Chains”。

  
4 用实际行动支援E. F. Codd
   1973年,关系数据库正在艰难突围,数据库界面临重大科学问题:数据库向何处去?是优化的层次数据库,还是当时只有新概念的关系数据库? 披着漂亮数学外衣的关系数据库能够实现吗?
  时值IBM启动RDBMS(关系数据库管理系统)的验证原型项目System R,斯通布雷克进入伯克利分校任教,且正当而立之年,面临tenure (终身教职)之压力,他和志同道合的 Eugene Wong 做了一个改变人生的决定:
  赌一把,做出一个RDBMS原型,让它跑起来;
    赌一把,用实际行动支援 E. F. Codd;
      赌一把,也为了自己的tenure (终身教职)!。  
  尽管还没十月怀胎,他们先就为憧憬中的作品取了一个好名称:Ingres,其中In-g-re-s分别取自英文单词 交互式-图形-获取-系统 这四个单词。
  从此,踏上了一条多有荆棘,偶有鲜花的攀登之路。
  多年后,他在功成名就,一览众山小的时候,回望来路,还有些后怕;在回答在记者玛丽安.温斯特采访时,说:“如果当时我比较明智,也许不会开始这个项目,…真的太难了”。

  
5. 两岸猿声啼不住,轻舟已过万重山
  斯通布雷克立刻受到来自保守派的批评:“你不可能构建出来一个全新的数据库系统,即使你可以,也没人能理解你的查询语言”。

   小卒子已经过河,没有退路,斯通布雷克和他的伙伴们,一个团队,五年时间,白手起家,夜以继日,以UNIX为平台,以C语言为武器,代码不好就推倒重来,1800个日日夜夜,90%的精力用于让它跑起来。
  批评声在继续,但轻舟已过万重山,Ingres跑起来了。
  那时,他们还不知道,他们在数据库的沃土上,种活了一棵树,一棵可“普度众生”的菩提树!
  斯通布雷克在接受玛丽安。温斯特采访时说:“用90%的精力用于让它真正跑起来,是我们做过的最明智的事情…是Ingres与其他学术项目的最大区别!”
  所以我们说,领潮于新,让他找到攀登方向;成功在实,IT业只相信落地生根、能开花结果的成果。


6. BSD免费代码,是普度众生,还是书生气十足?  
  但是,批评家们还是继续批评实干家:批评Ingres的扩展性,批评原型系统用户少。

  全信批评家不如不信批评家。笔者曾在一篇博文中说过一个有趣的“批评家类数方根律”:当多位批评家批评一个实干家时,争论的时间和有独立见解的批评家类数的平方根成正比。(欲看“证明”,点击这里《  批评家类数平方根律》)。

  为在数据库界普度众生,斯通布雷克团队做了一个聪明的决定,把Ingress 置于BSD保护之下, BSD即“Berkeley Software Distribution (伯克利软件发行)”。是一个软件开源协议,对软件商十分友好;免费使用、可以修改,改后还可再开源,软件商还可以发布和销售。笔者觉得不妨取名为 “知识的共创共享主义”。
  于是,研究界企业界都可以免费获得Ingres 的全部源程序。
  似乎这是一个书生气十足的决定,看看IBM的有商业头脑的企业家,他们的源码可不会随便免费。
  到 1980 年止,Ingres共分发了 1000 份拷贝,不少公司使用这些代码形成了自己的产品线。笔者1983年到南加大时,体验过在计算机系机器上的Ingres。
  
  下面说说  迈克尔.斯通布雷克种的两棵树。
  
7. 第一颗树 ---- 枝繁叶茂的Ingres之树
    下图是人民大学孟晓峰教授从电子教案中取出,发表微信上的页面,笔者只加了三个标注框(此外,博文还参考了孟教授等编译的《数据库大师访谈录》[1],一并致谢)。


  
这棵树生生不息,枝繁叶茂;在竞争中,Ingres的免费代码,正是它的DNA得以广泛扩散和延续的动力。
  在繁茂的Ingres树上,一级子节点对根节点的继承主要靠“输送学生人才+免费代码”。第三级对第二级的继承主要靠并购,如微软收购Sybase,  Oracle收购tTandem,以及IBM收购Infomix,不管后来怎样修改,Ingres的DNA已深深地打上了烙印。  
  不知是否有人统计过,这棵普度众生的Ingres树,为美国提供了多少就业岗位!

  
  7.1 后辈系统绕过了最难的模块  后继系统由于得到了Ingres全部源码,自然绕过了那些核心难点,包括:UNIX平台支持,多用户、多进程、两个层次的非过程语言,子查询,宿主语言,交互式算法,存取管理、并发和恢复、部分完整性约束,以及查询修改,还有用于完整性约束和视图,等等。
  做过DBMS的人都知道,这些都是最难最难的。
  我们曾开发过一个简单DBMS(作为国家自然科学项目的验证平台),用Pascal、C和C++实现了三个版本,中间也推到重来几次 ,笔者也在其中写过几万行程序,较难的模块包括:工作区结构、Cache,时态机制,B+树,命令行解释器(词法语法分析),循环语句嵌套(最大64层)数学表达式的递归下降法求值,等等,虽说技术难度只有Ingres的零头之零头,也熬了五年,完成时一松气,就生一场大病,仿佛脱了一层皮。缓过来后,写了两本书 [2,3],介绍了其数据结构、算法,公布了源程序 ,后用于某专用系统中,相关成果得过两次省科技进步二等奖,也算是一种安慰。

 
  7.2 后辈系统有更好的用户体验 在争夺查询语言标准的技术高地时,学院派的Ingres还是没有斗过百年老店IBM,IBM的结构查询语言SQL以结构化、可嵌套,接近自然语言等优势获胜(或用今天的术语,以用户体验获胜),所以,后继系统都采用了作为标准的SQL语言。
  下面例子演示其异同:
  例1 在图灵奖得主中,把属于数据库领域的图灵奖得主找出来。

   上图左面是Ingres 的Quel语言,右边是现代主流语言SQL。容易看出,主要元素次序有所不同,差异主要还是表现层,在用户感受上的。
  

8 第二颗树:济济一堂的人才之树.  M.Stonebraker的项目有两大特色,新颖和实在,这种项目最培养人;下面是以他为根的人才树,还没列出第三层,已是满目辉煌,济济一堂。

   现代科学竞争,人才是第一个要争的要素。我们国家的863、973.自然科学基金,有个重要考核指标就是人才培养。
   见过人才培养多的,还没见过培养高级别人才有这么多的。可以推想,如果再加上其合作者、师兄弟,他的人脉之广,可能覆盖了数据处理各个子领域, SQL、数据仓库、NoSQL、大数据、NewSQL,……, 千丝万缕,概莫能外。


9 他办公司像孵鹰,都放飞了,一种新的活法
  在UC Berkely的日子里,斯通布雷克培育过多个公司;2001年到MIT后,几乎每年与多所大学合作开发一种新类型的数据库或者数据处理系统,并创办公司以商品化,例如: Ingres、Illustra、Cohera、StreamBase (流数据)Systems和Vertica,(列存储数据库),Goby(搜索技术),Paradigm4(科学数据库),Tamr(企业数据集成),等等。
  这些公司有独特的思想、技术和专利,其中大多数公司都成功卖出,这些公司像一颗颗科技种子,在更大的竞争空间中发芽长叶,开花结果,像一只小鹰,孵化出来,飞向了新的天地。
    
  孵鹰放飞,能飞得起来,育种出售,能卖得出去;有人说是学院派的书生气;笔者觉得,即便是书生气,也是书生的一种新活法。
  
10 论文被高频引用,辩论显灼见真知
   他的研究领域,不止于上面提到过得DBMS实现技术,在列存储 、科学数据库、联机事务处理、流数据、大数据等新领域,都有丰富的著述。这里仅列出ACM数字图书馆的统计数字:
    发表年份         1971-2014     论文总数      292
    总被引用次数     6,511         总被下载数    196,927
    平均被下载次数   1,774.12      平均被引用次数 22.3
  斯通布雷克始终站在数据大潮的前头,他是弄潮儿和冲浪者,2007年,他在辩论中说,通用数据库将拼不过专专用技术, 2010年关于MapReduce /Hadoop的论战;2011年为NewSQL呐喊;2013年写系列文章解读大数据,无不浸润着灼见真知。  


11  对四位得主,一人赞一句
  图灵奖得主们的研究生涯内涵丰富,外延广阔,不是一两句话能概括的;如果一定要勉强笔者,想说下面的话:
  C. 巴赫曼:       数据库观念的践行者,稳健而务实;
  E.F. 柯德:       数据模型思想家兼改革家,坚持真理;
  J .  格雷:       数据共享主义的信仰者,洞察而周密;
  M.斯通布雷克:   永在数据潮头冲浪的实干家,豪气过人。
  
  这些图灵奖得主们给了我们什么启示?
  他们成功的路上,荆棘多于鲜花,他们把握时代对IT技术的重大需求,站在科技的前沿,善于提出科学问题,凝练科学问题,进而解决科学问题;他们坚持真理,他们领潮于新,成功在实,永远站在在新技术大潮的前头。

   
12  跨国关联: 863还是973,科技进步奖 还是自然科学奖?
  不同的国情,不同的时代,很难比较,如果一定为难笔者,这里姑妄言之.
  一个中国的项目,如果有点像巴赫曼的工作,或像吉姆.格雷的工作,可能会进入863系列; 如果性质有点像E.F.柯德的工作,或像斯通布雷克的Ingres,可能会列入973系列(时代重大需求、前沿性和基础性);
  对于奖项,如果一项成果,有点像E.F. 柯德的成果,可申请自然科学奖;如果有点像另外三位得主的成果,可申请科技进步奖。
  这里特别强调,只是“有点像”,并且是“姑妄言之”。
  
13 不见兔子不撒鹰,图灵奖的务实机制
  连续四篇博文,介绍了四位数据库界的图灵奖得主。他们都是美国的,前三位与IBM有不解之缘,第四位在两个顶级大学(UC Bekely和MIT)任教,学术经历都不平凡。
  图灵奖评委沉得住气,一时看不清,就多等几年,五年、十年、二十年;等到成果被应用、被转化、被公认,见了兔子才撒鹰。
  所以鲜见关于图灵奖得主的争议。得到图灵奖的,一定是真大师,但真大师未必能得图灵奖,因为图灵奖名额太少,而大师稍多。
  也许,这里有一些值得我们国家评奖时可学习借鉴的地方。


14 远山的呼唤:呼唤中国的图灵奖得主
  赞完了数据库界的图灵奖得主,心里有那么一丝酸酸的味道。
  迄今,华人中的图灵奖得主只有一位--姚期智教授(2000年获奖,现在清华大学),细说起来,他还是迈克尔.斯通布雷克的普林斯顿校友。
  回望众多图灵奖得主的来路,他们多与名校名师有关;从博士毕业后到的图灵奖,快的14年(如Dana Scott,博士1958, 图奖1976);慢的40年,如Robert Kahn (博士1964, 图灵奖2004).;打拼20年-35年的比较多。
  中国的第一批博士于1983年5月毕业,仅有18位,其中属于IT领域的似乎只有一位。星移斗转,如今已30年过去,考虑到历史和国情的原因,我们有理由期待,再过10年,有中国培养的图灵奖得主,笔者更期待,有中国数据库界的图灵奖得主。为什么?
   为了每次称赞人家后,心里不再有那一丝酸味,
      为了未来得主的荣耀,
          也为了国家的富强。
远处有一座高高的山峰,世界计算机科技之峰,它正在呼唤,呼唤华夏的年轻IT人去登攀!
  
参考文献

(说明: 据ACM数字图书馆统计,Michael Stonebraker1971-2014的重要论文292篇,总被下载数196,927,平均每篇被下载1,774次,总被引用次数6,511, 数量太多,建议读者在googl或必应搜索。)

其它参考文献

1)  孟小峰等编译,数据库大师访谈录,机械工业出版社,2013.9。
2)  唐常杰 ,张天庆,魏志毅,周涛,数据库管理系统设计与实现, 电子工业出版社1993.5出版(含Pascal源程序)。
3) 唐常杰 , 相利明,熊民,熊岚,数据库管理系统内部结构及其C语言实现,,电子科技大学出版社1995.8出版,含C源程序)。
  

相关博文 

 需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1)

 解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)

 冲破数据共享封锁线的领头人--数据库界的四位图灵奖得主(3)

 冲浪在数据潮头的实干家----数据库界的四位图灵奖得主(4)



其他相关博文

  人物类我所认识的Adlman 系列 共6篇 他凭什么得了图灵奖,侧应钱学森之问,计算机病毒的教父,DNA计算

  科普类趣味数据挖掘系列 被打和北大,烤鸭,数据血统论,博客均击量,干预规则,分房与分类,宴会上的聚类, 灯谜、外星殖民、K-平均聚类与蛋鸡悖论, 愚公移山和进化计算,基因表达式编程GEP,数据挖掘与哲学; 

  批评家类数平方根律与科学博客的改版(实干家和批评家系列之二)


       其它系列博文的入口    唐常杰博客主页    科学博客主页



https://blog.sciencenet.cn/blog-287179-887047.html

上一篇:突破数据共享封锁线的领头人--数据库界的四位图灵奖得主(3)
下一篇:Single Track :国际会议办会方式的回归,兼议应对的方法
收藏 IP: 118.113.68.*| 热度|

39 李伟钢 李学宽 赵君渝 吴跃华 章苏 于远帆 左芬 李佳苗 武为治 祝贤明 周贤 罗汉江 陈小润 许培扬 李竞 彭渤 徐旭东 赵美娣 黄永义 庄世宇 曾宇怀 彭真明 陆泽橼 吕为民 胡俊 曹聪 康建 刘洋 苏盛 苏光松 周曙光 包云岗 张能立 赵凤光 杨正瓴 shenlu zjzhaokeqin yunmu yangb919

该博文允许注册用户评论 请点击登录 评论 (45 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 00:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部