伍加的空间-留下生命的痕迹分享 http://blog.sciencenet.cn/u/伍加 穷天人之际,通古今之变,成一家之言。

博文

新兴职业:数据科学家

已有 4236 次阅读 2010-3-10 23:35 |个人分类:科学技术|系统分类:科研笔记

【科学技术(3)】

新兴职业:数据科学家

伍加,2010年3月10日

世界正在朝着数字化方向飞速发展:数字媒体、数字电话、数字社区、数字政府、电子病历、虚拟世界,等等。当世界越来越数字化时,电子信息不断增加,海量数据不断膨胀,分析和理解数据就变得越来越重要。

世界上最大的连锁零售企业沃尔玛每小时处理一百多万个客户,每小时向它的后台服务部的数据库存入2.5 petabytes 的信息,这相当于 167 个美国国会图书馆的藏书信息。沃尔玛的信息主管(Chief Information Officer)Rollin Ford 说:“我每天早晨反复问自己,我怎样才能把这些海量信息处理好、管理好、分析好?” Facebook 存有400 亿张照片,每天都有成千上万的新照片加入进去。人类基因库含有 30 亿对基因组,针对某组基因制造出“定向”药品已经进入试验阶段,它需要对基因库进行快速查询。对海量信息的处理和管理显得日益重要,因此一种新的职业“数据科学家”会应运而生。

数字化和信息爆炸会不会带来不良后果?信息太多了会让人们感到无所适从;数据无所不在时会出现信息安全的问题,那些不该公布的信息会引起不良后果。比如加 州欧克兰城市警察局办了一个网站叫做“欧克兰犯罪观察”,它把奥克兰市警察逮捕罪犯的数据全都公布出来,比如何时何地由于何种原因警察逮捕了何人,等等。根据这些历史信息,人们发现奥克兰警察从来不在星期三晚上扫黄打非,这就给做皮肉生意的犯罪分子有机可乘。当然,这只是并不普遍的疏漏而已。利弊相比,数字化和信息爆炸为人类生活带来的还是利大于弊。

数据已成为企业的原材料,以数据为中心的经济正在出现。商业智情,也称作BI(它是英文单词Business Intelligence的缩写),就是利用对大量的数据进行分析、挖掘、和综合,从而为企业决策做出有效的帮助。所以,商业智情可以算作数据科学家的工作内容之一。一些比较专业化的数据科学家也会出现,比如数据分析师、
数据挖掘师、数据可视化设计师等等。

数据科学家需要有软件工程、统计学、图形学、数据挖掘等领域的知识。面对信息爆炸,面对海量数据,简单的表格(spreadsheet)工具已经过时。大多数的商业应用需要根据海量数据迅速作出决策,这就需要有对各种数据进行去粗取精、去伪存真、由此及彼、由表及里的有效分析工具,因为那些海量信息可以来自于各类报表,同时也来自于各个部门的异种数据库,还有大量的数据来自于互联网,它们有各自不同的数据格式和存取方式。简单地说,数据科学家需要具备三种能力,精通四门学科。这三种能力是:
  1. 统计分析能力;
  2. 对数据的提取与综合能力;以及
  3. 数据的可视化表示能力。
数据科学家要熟悉的四门学科是:
  1. 计算机科学:主要用来数据获取、数据解析、数据存放、和数据安全。
  2. 数理统计学:主要用来数据分析、数据过滤、数据挖掘、和数据优化。
  3. 图形设计学:主要用来显示数据结果,比如将数据表达成三维图形,以便更好地理解和利用。
  4. 人机交互学:主要用来在用户和数据之间建立有机联系,使得人对数据的使用更方便。

目前,我们看到许多在这四门学科中某个学科的专才,将来更需要的是熟悉所有这四门学科知识的通才,这就是数据科学家。

伍加,2010年3月10日
http://blog.creaders.net/invictus/



https://blog.sciencenet.cn/blog-50350-301772.html

上一篇:穷寇莫追
下一篇:民族精神
收藏 IP: .*| 热度|

5 赵星 曹聪 许浚远 黄富强 贺天伟

发表评论 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 12:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部