willtongji的个人博客分享 http://blog.sciencenet.cn/u/willtongji

博文

当“数据科学”遇上“自由博雅”(图文版)

已有 1212 次阅读 2017-3-14 11:50 |系统分类:教学心得

受中国新一代IT 产业推进联盟和全国高校大数据教育联盟的邀请,今天上午在“CIO 时代”APP上和大家做了一个在线交流分享。总的来说体验还是不错的,对讲者来说也非常方便,只要你提前准备好PPT图片,对着手机就可以向全世界直播了。现在这种移动在线直播和交流的平台越来越多,除了像“得到”、“知乎”这样的知识共享平台外,微信平台上面也开始有类似的了,比如李笑来老师的“一块听听”,支持回放,体验都不错。算是继MOOC时代后的又一轮移动直播平台的建设了,给高等教育资源带来了有益的补充。

下面是我的分享,欢迎大家指正,多交流。

1、对数据科学的思考

大数据时代给我们的工作、学习和生活带来了全方位的冲击。

(1)思维模式

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受关注已是毋庸置疑的事实。它好比是21世纪的石油和金矿,是一个国家提升综合竞争力的又一关键资源。大数据既是一类数据,也是一项技术,还是一种理念。大数据的理念、大数据的原理、大数据的应用,每个人都应或多或少地掌握。特别是大数据的思维方式,我认为:大数据的理念和思维方式已经成为人们应该具备的基本常识。

(2)课程教育

2015年国务院常务会议通过的《关于促进大数据发展的行动纲要》非常强调开发应用好大数据这一基础性战略资源,教育部高等学校教学指导委员会也将“大数据”列为十三五期间高等学校的教学改革和教学建设的重点,同时教育部高等教育司也于2016年在普通高等学校本科专业设置中增加了《数据科学与大数据技术》专业(专业代码080910T),以及面向高职的《大数据技术与应用》专业(专业代码:610215)。

(3)技术体系

自从大数据出来后,数据管理界发生了巨大的变化,技术驱动成为大数据管理系统的一个主要变革力量,并开始慢慢走向成熟。大数据技术的软件栈也基本成型,主要的几个发展趋势包括:分布式计算已逐渐成为主流计算方式、数据分析算法逐渐丰富同时工具普及化、Hadoop及其生态系统将重构数据处理市场、以及大数据产业链日益繁荣等。

“数据强国”已经上升到国家的战略高度,国家领导人也在不同场合多次指出:

  • “当今世界,科技进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。”

  • “因应信息技术的发展,推动教育变革和创新,构建网络化、数字化、个性化、终身化的教育体系,建设“人人皆学、处处能学、时时可学”的学习型社会,培养大批创新人才,是人类共同面临的重大课题。”

作为大数据背后的学科基础,数据科学可以看作是:“思维 + 计算机科学 + 统计 + 应用”的一个综合体。它包含三个层面的意思:首先,建立数据思维方式,学习怎样利用数据;其次,应该了解数据清理、集成、探索等相关技术;最后,洞见和商业意识也至关重要。

数据科学天生就是一个交叉学科,和数据科学最为密切的一些学科包括:计算机科学与技术、数学、统计学、信息管理、情报学等。因此,数据科学的三大支柱可以归纳为:

  • Datalogy (数据学):对应数据管理 (Data management)

  • Analytics (分析学):对应统计方法 (Statistical method)

  • Algorithmics (算法学):对应算法方法 (Algorithmic method)

在此基础之上,我们凝练了数据科学的五大要素,并用一个我们称之为A-SATA的模型来表示,包括:分析思维 (Analytical Thinking)、统计模型 (Statistical Model)、算法计算 (Algorithmic Computing)、数据技术 (DataTechnology)、以及综合应用 (Application)。

从这个模型,我们可以导出数据科学的核心知识点:

  • 分析思维(Analytical thinking):包括计算思维(Computational thinking)和统计思维 (Statisticalthinking)

  • 数学基础:微积分、线性代数、概率统计、离散数学等

  • 数据建模与评估:统计模型、回归模型、模型评估等

  • 算法实现:问题求解能力和算法涉及

  • 数据管理:涉及数据的整个生命周期,包括感知、存储、计算、分析、可视化等。

  • 知识转化:沟通交流,道德规范等。

实际上,目前国内外的很多大数据相关学院、专业都是在围绕上述核心知识点来进行课程开发和整合。我们学校也是如此,例如这学期我开设的《数据科学通识导论》课程,就是围绕上述内容展开的。

我对大数据和数据科学另外一个重要的思考就是希望能够将它们作为通识课来进行教授。


首先,数据科学(包括大数据)非常适合作为一门通识课程。所谓通识教育,旨在为学生带来完整的知识结构,养成触类旁通的通用智慧。通识教育起源于古希腊,指公民所应当具备的知识与能力。比起“知识点”,通识课侧更重于“思考点”和“实践点”,因此,它强调的是以学为中心,老师会想方设法去激发学生自主学习,让学生自觉地就思考点去搜集资料、思考问题、表达观点、自我辩护、开展实践,在实践中使思考能力与语言能力,以及动手能力合一。而这些训练,全都是培养视野广阔、人格完整、智识践行的人不可缺少的。这正是通识教育的意义。

基于这种思想,大数据和数据科学实际上是非常适合作为一门通识实践课程的,可以看到:

  • 数据科学有利于培养信息时代一个健全的人;

  • 数据科学有利于培养跨学科视野;

  • 数据科学有利于培养表达自我所必备的技能;

  • 数据科学有利于培养个人的科学思维方式;

  • 数据科学有利于围绕数据开展实践。

而“通识教育”中有一类特殊的课程是每个学生都都必修的,这就是“自由教育”的课程,其精神支柱和思想来源就是现在经常听到的“Liberal arts”,我将这个词翻译为“自由博雅”。“自由博雅”通常包括自然科学(Sciences),社会科学(Social Sciences)和人文学科(Humanities)三部分。Liberal Arts旨在培养一流的头脑、一流的心灵。只有有了一流的头脑与心灵,才有可能产生一流的科学家、艺术家和思想家。否则,大学生产的只是一群高级工匠,知其然而不知其所以然。相对于具体的职业教育而言的,Liberal Arts的目标不在于教会学生某些具体的谋生的技能,而是从多方面对学生进行教育,使其成为一个高素质,有教养的文化人。

上述有几个方面都和数据科学的“世界观”不谋而合,我认为,Liberal arts理念可以向数据科学注入“博雅”之心,为给数据科学带来:

  • 问正确问题的能力;

  • 科学方法观;

  • 团队协作的精神;

  • 沟通交流的能力;

  • 三观正确的决策。

而这些,也都是数据科学所应该关注的。

2、对数据科学的教学实践

因为在高校的原因,下面我着重说说数据科学在课程建设方面的内容,并结合自己的教学实践谈谈我自己的心得体会。从去年开始,我陆续在学校陆续开设了两门和数据科学(包括大数据)相关的导论类课程:“大数据原理与实践”和“数据科学通识导论”。这里我从几个方面简单谈谈。

首先就是课程内容的设置,以《数据科学通识导论》为例,我们围绕前面提出的A-SATA的模型构建了这门课程的知识体系,包括思维概念、数据技术、数据分析、算法编程和综合应用五大模块,共16节课,基本覆盖了上述数据科学的核心知识点。


其次,我们重点开展了“自由博雅”的实践,总结起来共16个字:建立对话;激发思辨;协作交流;动手实践。这里,我们借助了两个平台:微信公众号平台和数据科学实践平台(建设中)。

(1)微信公开课实践

为了更好的服务学生,以及体现通识导论课程的性质,我们借助了“微信”这个强大而普世的平台开展师生之间的连接和互动。例如,课程的更新方式如下:

  • 周二:发布本周课件初稿,授课;

  • 周三、周四:互动、点评与问答;

  • 周五:发布最终版课件以及相应文本注释;

  • 周末:课外阅读文章。

通过这种方式,可以很好的建立老师和学生之间的连接,围绕数据科学进行师生互动,结合课程思考题,达到建立对话、激发思辨的目的。


大家可以关注我们的课程公众号,查看过往所有的课程资料,以及我个人对大数据和数据科学的理解与思考。

(2)数据科学实践平台


实践出真知,数据科学者们课程尤其如此。因此,我们采取了多种方式相结合,尽量给同学们提供数据以及动手的机会,达到协作交流、动手实践的目的。这里主要包括三类:

  • 课内的课程设计

  • 引入课外竞赛:Kaggle、上海SODA、阿里巴巴天池等

  • 数据马拉松(Datathon):类似Hackthon


结果还是比较令人满意的,同学们做出了一些非常令人赞叹的作品,例如:上海地铁系统进站流量图、基于人流指数预测的商圈公共安全预警系统、轨道交通运维大数据分析等。部分作品获得了一些相关比赛的奖励,也产生了教研结合的后续项目。

最后再来说说大数据实践平台建设的想法。由于时间的关系,这里提几点:

  • 校企联合建设:大数据平台已经开始进入加速成熟期,仅仅靠高校自己很难建设起大规模的实践平台,这里面需要大规模的基础设施建设投入。一个可行的思路是校企合作,最好也能拉上教育主管部门,此事才有可能落地。

  • Education as a Service:随着云计算和互联网+的持续发展和实践,教育作为一种服务的形态呼之欲出,习主席所倡导的“人人皆学、处处能学、时时可学”的学习型社会是未来的方向。

  • 公共教学实践平台:这一块应该是日后大数据和数据科学实践平台落地的一种可行形态,由于基础设施资源投入的巨大,由少数巨头牵头建立公共服务平台普惠大众,同时又能积累教育大数据和人才信息,可以共赢。Google收购Kaggle平台算是迈出了一步,值得关注。

愿景是好的,挑战也颇大,特别是在技术上:

  • 数据上云、分析上云、教育上云

  • 容器技术、HCI技术、分布式处理技术等

技术的发展和竞争还在继续,整个大数据技术栈还没有稳定下来,这些还有待学术界和工业界的共同努力。我们的选择也需要谨慎。

谢谢大家今天的收听!我今天的分享就到这里,大家后面有什么疑问可以后面联系我进一步了解,同时也欢迎关注我们的公众号,给我们多提出宝贵意见。

参考文献:



http://blog.sciencenet.cn/blog-242272-1039352.html

上一篇:人类文明的启蒙与进击:从石器时代到数据思维
下一篇:响彻三界的战争:从数据科学竞赛到Google的反击
收藏 分享 举报

2 周健 刘钢

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-10-19 13:08

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部