|
说明:本博客与微信公众号《嘉数汇》部分同步更新,内容大部分原创。请扫码关注《嘉数汇》公众号。
本篇是针对数据科学基础设施章节的最后一篇,前两篇分别是:
硬件也说了,软件也说了,剩下来的就是人件了。是的,无论是存储大数据的硬件也好,分析大数据的软件也罢,背后实际上都还是人。
1、引子
摩尔定律是把信息权力(power)交给了每一个人,让每一个人拥有信息权利(right)。从大型计算机到小型计算机,到个人计算机,到手机,到可穿戴,计算能力越来越便宜,越来越从控制转向分散,从机构转向个人,互联网把计算能力日益强大的服务器、PC和移动终端连接在一起,改变了人与信息的关系,人与服务的关系,人与万物的关系,万物之间的关系,因为它们全都联网了,智能化了。比特在逐步控制原子。
摩尔定律带来了信息过载的必然结果,导致了今天的大数据。由摩尔定律所推动的IT发展速度越来越快,而DT才刚刚起步,如何弥补它们之间的巨大鸿沟,不光要靠人,还要加上机器,并且是智能化了的机器。于是乎,教育部高等教育司于2016年底在普通高等学校本科专业设置中增加了《数据科学与大数据技术》专业(专业代码080910T),在高职学校设置了《大数据技术与应用》专业(专业代码:610215);并且已经分两批批复了共35所高校在内的“大数据专业”,相信在接下来的几年中大数据专业会呈爆炸性增长的趋势。
提到“人件”(Peopleware)这个词,相信大家首先想到是肯定是软件工程。没错,被誉为软件管理图书领域最为璀璨的“双子星”,一本是《人月神话》,另一本就是《人件》了,号称每一个管理软件团队的人都应该阅读。这两本书一直经久不衰,《人件》已经是第三版了。
2、软件工程中的人件
科技是第一生产力,但科技只不过是人脑的反映。无论科技多么灿烂辉煌,它始终是人创造的。软件作为科技的一部份,对它的管理归根结底还是对人的管理,这是《人件》一书的出发点。
这本书告诉读者在单纯的软件技术的背后是较为复杂的人际关系,以及在这些人际关系中如何做好管理的工作。书中使用了很多例子,通过对技术员心理、行为的剖析,告诉管理者应该如何了解自己的员工,应该如何去管理他们;相对的,书本也从侧面告诉技术员自身在工作环境中的行为特征,了解这些行为特征对员工自身的工作也大有好处。
《人件》告诉我们,在我们的开发工作中,对于绝大多数失败项目来说,失败的原因不仅仅是技术问题,更多的是与人有关的问题。书中提出了“项目社会学”这个概念,从而把人放在了项目过程中最重要的位置。这个概念引出全书的根本论题:本质上,我们工作中的主要问题,与其说是技术问题,不如说是社会学问题。在问题面前,与技术上的设计、实施及方法论问题比较起来,与人相关的问题会给管理者带来更多的麻烦。很多时候,大部分的技术管理者更关心的是技术问题,更愿意把自己的时间花在解决最费解也是最有趣的难题上,而不太善于管理人;而懂得如何管理人的管理者往往对技术又不是深谙其道。
实际上,软件工程背后之所以有人件的问题,就是因为软件越来越复杂,而软件越来越复杂其中一个原因就是背后硬件的进步(还记得上一篇中的“安迪-比尔定律”吗?),为了更有效的利用摩尔定理所带来的新增晶体管,不得不组织更多的人来开发更加复杂庞大的软件,当然,软件背后的需求是根本性的推动力,即便这些需求并不是来自用户。因为需求也是可以创造出来的。
这些问题在数据科学的项目中同样也存在,然而又有些不同。
3、数据科学中的智件
数据科学作为一门跨学科,其工程项目天生就需要不同领域的专家进行协作。数据科学涉及到如何从数据过渡到模型,再过渡到应用程序。因此,数据科学学科需要的不同的角色和技能,包括:统计学家、计算机科学家和软件工程师等,其中不同的角色所交付的成果也不同,包括:
统计学家:洞察、预测、可视化表达;
计算机科学家:算法、函数库、计算/存储/网络性能;
软件工程师:数据软件、数据应用程序、数据服务;
行业专家:行业洞见。
因此,数据工程不同于软件工程,它是用于从各种不同形式的数据中获取知识和洞察,就像粘合剂一样,把不同领域的知识和不同人的想法融合到一起,共同来解决关于数据的问题,把信息转换成知识,以及可以采取行动的洞察。合作将成为数据科学领域的常态。
因此,人件在数据科学中天生就应该是一等公民,而现在大家所关注的一些大数据热点技术,例如Hadoop、Spark、深度学习等,充其量只能算作是工具和环境,就像软件工程师手中的集成开发环境IDE和函数库。更重要的是,数据工程天生就对机器友好,是在人的指导下开展的数据自动化分析工作。虽然随着人工智能的发展,利用机器自动写代码开始变得可行,但离实际应用应该还有很长一段路要走。而在数据工程中,由于对象(数据)的确定性,以及问题空间的有限性,几乎所有的工作都可以在专家的指导下自动完成,而且专家的知识还可以进行封装、共享、复用等等,例如统计模型、数据挖掘库等。可以看到,数据工作平台正在迅速崛起,并引领着所谓的DataOps(与DevOps对应)领域的快速发展。
软件工程中的DevOps和数据科学中的DataOps
还要更为高级的一些抽象。例如,南大的周志华教授还提出了“学件(Learnware)”这样的概念,来应对当前机器学习环境适应低、数据共享难等问题。Learnware 具有 reusable(可重用)、evolvable(可演进)、comprehensible(可了解)三大特点,如若能得以实现,更多终端用户都能像专家一样使用机器学习技术,并最终形成一个Learnware市场。另一个类似的概念则是陆汝钤院士等人所所提出的“知件(Knowware)”。
在我看来,学件也好,知件也罢,最终都还是人类智慧和洞见的一种体现,不妨把它们统称为“智件”(Intelligenceware或Intelliware)吧,也蛮符合当下人工智能的热潮。那么,什么是智件?智件就是具备数据思维和行业洞见的人,在从事数据科学的过程中所体现出来的一种智力要素。这恐怕才是数据科学基础设施中的核心。
原来数据科学需要的不仅仅是人件,而是升级后的智件。人类不能永生,智件永远流传。而智件也不是天生的,是需要我们悉心培养的。
4、摩尔的咏叹
今天,我国所实施的“大数据国家战略”和所倡导的“互联网+行动计划”正在从国家层面上对这个新时代以及它所代表的发展趋势做出的反应。这个时代是“重构一切”的时代,产品、服务如是,教育、专业和学科亦然。
互联网催生了新经济,大数据造就了新智能,工程教育也迎来了新工科。双创、分享经济、供给侧改革,热词一个接着一个,浪潮一个紧挨一个,令人目不暇接。
我们需要重构我们的教育以适应这样一个新的时代,培养数据科学所需要的“智件”。信息技术的发展不仅改变了我们的生活,也改变了机器的命运,还在改变着我们的下一代,改变着我们的基因。
今天,全球轰轰烈烈的大数据建设开始了,数据科学专业的开设、数据学院的成立、数据人才的培养,都预示着这一新的开始,教育改革永无止境。可以想象得到数据科学相关专业的体量规模将是软件工程专业的若干倍,并且有望成为新的信息类基础课程,代替目前广泛所开设的大学计算机基础。想想有谁还应该去学习Windows的使用、Word的操作、局域网的组建、网页的设计呢?这些东西因摩尔而生、也因摩尔而灭。
咏叹调这种独唱方式,可以极大地抒发人的感情,并通过强有力的节凑表现这种情感。咏叹调一般是主角的独唱,用它来表现人多少带着一些个性化的意味,针对具体的人,或孤高、或落寞,或神采奕奕。我想,摩尔先生应该也能体会到这些吧。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 17:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社