|
《大数据原理与实践》通识公开课终于开课了,伴随着本公众号,在接下来的几个月时间中,我们将和大家一起探讨大数据的方方面面,让大家掌握大数据的理念与思维方式、大数据的原理与技术、大数据的方法论等,并实践运用到现实中。
从人类文明诞生的那一刻起,数据就伴随我们而生。正在发生的大数据变革,恐怕是人类技术发展中最重要的话题之一,它冲击着我们的各行各业,同时大数据也正在彻底的改变我们的日常生活。大数据就好比是21世纪的石油和金矿,是一个国家提升综合竞争力的又一关键资源。小到个人,大到企业和国家,大数据均是极度重要的一个议题,需要我们真正的深入理解它。
大数据这种技能掌握起来其实是不容易的,可一旦掌握,这种技能跟任何其他技能一样,必然熟能生巧,越发地精进,让你终身受益。我们认为,本质上来看,“人人都可以成为数据工程师”,甚至“人人都应该是数据工程师”。
掌握某项技能(比如英语),并融入到实际生活当中,通常需要升级我们的大脑,方法就是:积累与实践。关于一项技能的知识、原理、技术这些东西,说得再多可能也没有用,看似理解了,实际上可能是左耳进右耳出。积累和实践,才是改变的根本,大数据思维的学习亦是如此。
我们会和大家一起每周讨论、思考、更新一些和大数据相关的概念、看法、原理、技术等。每周积累一点点,就有可能发生整体上的巨大改变,最终形成大数据的思维方式。
第一次课是对该课程做总体性介绍,让大家知道该课程讲些什么、不讲什么,课程的定位和目标,课程的更新方式,以及课程的知识体系结构,即大数据的知识体系,以及大数据的实践平台。这些内容是后面深入学习的基本。
下面就先来说说这次课程的主要内容和重点需要关注的地方。
大数据的重要性毋庸置疑,在接下来的系列课程中,我们会在不同的场景、从不同的角度反复地说。例如,从比较宏观的层面上,NASA最近放出的VIIRS图像数据是一个很好的例子,从太空拍摄城市夜间亮度折射全球经济发展的不平衡。一些国家经济增长迅速,建了更多的基础设施(如街道照明),而人们晚上也会打开更多的灯。这些图像大数据表明,从太空中看到的夜间灯光强度与一个国家的国内生产总值存在关联。在某些相关经济数据极少或存在误导的地区,这种经济情况评估方式会大有用武之地。中国的情况也是如此,从图中我们就可以马上观察到和目前中国的城市发展一致:北京、上海、广州、深圳就是灯光最强最大的几个地方。如果再能加上时间维度,我们就可以观察到一个地区或一个城市的经济发展历史演变状况。这无疑是一个崭新的角度,一个看似和经济发展不相关的数据,却能够揭示许多经济学专家都无法解释的经济现象。
Data can tell stories!
另一个比较有趣的例子是最近在上海、北京等地方比较流行的摩拜单车。摩拜单车是一个典型的基于物联网技术的创业公司。他们的产品和服务一经推出,就受到了各方面的好评。每辆单车24小时在线,可以方便的让用户找到并骑行。同时整个车联网络也无时不刻地产生着海量数据,这些数据有着非常大的用处,例如:城市规划、路网生成、交通预测、城市辅助安全等。微软亚洲研究院(MSRA)的郑宇博士在城市计算方面开展了很多优秀的研究工作,其中一个工作就是讲如何利用共享自行车产生的大数据对公共资源进行规划和调配,取得了很好的实际效果,也非常有趣。
还有很多类似的和大数据相关的洞察、应用与服务。
由于大数据的应用如此重要与广泛,我们将该课程定位为一门通识课,受众是全体大学生,目的是教授所有大学生(不论文科、理科、社科还是工科生)基本且全面的大数据常识。当然,如果你已经走出了校园,在工作之余如果也能关注本课程的话,也一定会受益匪浅的。关于这一点更深入的内容,可以查看我们公众号的另外一篇文章《当通识教育遇上大数据》。
关于大数据,我们首先需要明确的是:大数据既是一类数据,也是一项技术,还是一种理念。这是本次课最重要的提法,需要重点掌握。作为一类数据,代表综合国力的战略资源,它呈现出容量大、增长速度快、类别多、价值密度低等特征;作为新一代信息系统架构和技术,它能够对数量巨大、来源分散、格式多样的数据进行采集、存储,并进行关联性分析、深度挖掘、可视化分析等等;而作为一种理念和思维方式,我们则认为大数据是一种人人都需要掌握的科学方法论,是信息时代认识和改造我们这个世界的有效工具。
因此,我们再次强调:大数据的理念和思维方式已经成为人们应该具备的基本常识。
拥有大数据的理念,能够掌握数据和运用数据的人,才能在“一切都被记录,一切都被分析”的数据化时代生存和发展。无论你今天从事什么行业,金融、医疗、教育、科研,甚至一个普通工人或一线服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能变成一种自动化、智能化的服务。即便不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维方式也是非常重要的。学会用数据说话,用数据分析的结果来证明“哪个更好,哪个更坏”、并指导我们作出正确决策,是每个自然人都应该学习掌握的。
这就是本课程的定位:将大数据的理念和思维方式作为一种基本常识教授给学生,并辅以相关的技术、方法论与实践。
从国家层面上来看,2015年国务院常务会议通过的《关于促进大数据发展的行动纲要》非常强调开发应用好大数据这一基础性战略资源,教育部高等学校教学指导委员会也将“大数据”列为十三五期间高等学校的教学改革和教学建设的重点。未来几年政府将大力引导大数据与经济社会以及城市建设所结合的发展,逐步形成开放数据、数据洞察服务以及数据API经济。政府通过跨部门进行数据资源整合,建设数据资源共享目录,形成大数据资源开放共享的格局;进一步,开展政府和社会合作试点,共同开发和利用大数据资源,建成国家政府大数据统一开放平台;最后,形成一批具有国际竞争力的大数据存储、分析、可视化软硬件支撑平台和服务产品,并逐步实现民生保障服务相关领域的政府数据社会开放机制。
本课程所涉及的大数据知识体系如下:
第一部分 大数据基础
第1章 大数据的基本概念
大数据全景图
从IT时代到DT时代
大数据洞见(insight)
大数据总体框架
数据科学与数据工程
第2章 大数据的技术架构
传统数据库和数据仓库
Hadoop及其生态系统
商业大数据技术架构
大数据商业产品
第3章 大数据的应用
大数据与科学研究
大数据与政府治理
大数据与智慧城市
大数据与公共服务
大数据与商业创新
第二部分 大数据技术原理
第4章 大数据感知与采集
Digital world,数字化世界
互联网、云计算、物联网技术
智慧城市
第5章 大数据存储
数据存储基本概念
数据库存储
分布式文件系统HDFS
分布式数据库HBase
第6章 大数据管理
大数据仓库
结构化查询语言
NoSQL和NewSQL
第7章 大数据计算
分布式并行编程框架MapReduce
内存计算与Spark
SQL on Hadoop
图计算与流计算
第8章 大数据分析
统计方法
数据挖掘
机器学习
大数据分析语言:Python和R
第9章 大数据可视化
大数据可视化方法
大数据可视化工具
可视化分析
数据智能
第三部分 大数据工程与实践
第10章 开放大数据与大数据工程
开放数据与创新
大数据工程方法论
大数据工程实践步骤
第11章 大数据创新实践案例
互联网大数据
政府大数据
生物大数据
金融大数据
城市大数据
教育大数据
另外,课程还安排课外实践Lab,依托星环科技大数据平台开展大数据方面的实践(具体后面专题介绍),包括:
准备工作
结构化数据处理
结构化数据典型场景解析
半/非结构化数据处理
实时流数据处理
综合实践
星环信息科技(上海)有限公司是目前国内极少数掌握企业级大数据Hadoop和Spark核心技术的高科技公司,从事大数据时代核心平台数据库软件的研发与服务。在全球去IOE的大背景下,Hadoop技术已成为公认的替代传统数据库的大数据产品。公司产品Transwarp Data Hub (TDH)的整体架构及功能特性比肩硅谷同行,产品性能在业界处于领先水平。只有技术的不断进步才能逐步降低大数据的使用门槛,让更多的人使用起大数据来。
在大数据本身这一块,目前有很多开放数据资源大家可以使用,再就是与大数据相关的竞赛平台,都是很好的学习资源。例如上海开放数据创新用大赛(SODA),就是一个以开放数据为切入点,集聚社会智慧,激发开放数据能量,促进大众创业、万众创新的赛事。本课程也会选用部分SODA大赛的获奖作品和示例数据作为学习资源,让大家在第一时间接触这些鲜活的精彩数据创意。
最后,再来说一下这门公开课的授课模式。
过去的互联网,本质上是个群体,而且还是个小群体(2005年,中国互联网经过十年的发展,用户超过一个亿)。现在呢?现在人人都在“网上”,“在线”(online)的概念已经不怎么使用了,现在大家只看有没有信号,有没有WIFI,有没有电,手机已经成为一个人体器官(连丢手机的现象都少了很多),“互联网”这个曾经的虚拟世界,彻底融入了真实的生活,变成了像空气一样的东西,必不可少,无所不在,却又“看不见摸不着”。“互联网”已经完成了它的使命:连接所有人。接下来会发生什么?有哪些领域会因此发生巨大的变化?最大最有意义的机会是什么?
教育行业应该是个机会。我们将这门大数据的课程和微信公众号平台进行结合,形成微信公开课,通过公众号和学员进行互动,尝试将知识有效的传递到每个订阅用户。
微信公众号每周更新模式是:
周一:发布本周课件初稿,供预习参考;
周二:授课,提出本周思考问题;
周三、周四:互动、点评与问答;
周五:发布“正式版”课件以及相应注释;
周六、周日:发布课外阅读文章。
通过这种方式,使得课内课外的学员均可在第一时间看到本课程的最新内容,并进行互动,根据反馈我们回过头来打磨这门课程,从某种程度上说,也算得上是一种众创课程了。这不是一件很有趣的事情吗?
下面是本次课程的讲义,欢迎大家观看~(最后有彩蛋的哦)
注:如需该课件,可以在微信公众号中回复“大数据01”进行获取,欢迎订阅本公众号!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 06:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社