|
数据科学
早在2012年10月,《Harvard Business Review(哈佛大学商业评论)》就载文预测:“Data Scientist: The Sexiest Job of the 21st Century(数据科学家——21世纪最吸引人的职业)”,这一预测反映了未来世界对数据科学专业人才的需求。目前全球数据科学的人才都处于极其稀缺的状态。顺便说,我国很多高校今年开始招数据科学与大数据技术有关专业的本科学生。
数据科学是一个跨学科的领域,它使用科学的方法、过程、算法和系统,从各种形式的数据中提取知识和洞察力。在数据科学家中,有一些是数学家,有一些是计算机科学家,还有一些是数据分析和趋势观察的专家。
事实上,数据科学家可以分成两种类型:A型(Analytics,分析师)和B型(Builder,构建师)。A型数据科学家主要是应用分析员,从事数据统计分析、定量分析、预测分析和决策支持等工作。B型数据科学家主要是软件开发工程师,从事算法、过程和系统构建等工作,一般具备很强的编程能力。这两种类型的数据科学家,具有解决复杂问题的技术技能,都应该掌握现代神经网络和机器学习等新技术。
我曾经长期在石油地震勘探数据处理和解释领域工作。这是传统的计算机应用领域,当然不同于当今的数据科学领域,但也有某些相似之处,例如,该领域的工作者可分两个类型:一是从事实际的石油地震勘探数据处理和解释,在国外也称为Analyst(分析员),二是从事数据处理和解释方法研究和软件开发。在我原来工作的单位,这两种类型的人员分别在研究院和研发中心(R&D)工作。这两种类型的人员都掌握基本计算机应用技术。
极简教程
数据科学,特别是机器学习,有一些公认的巨著,其篇幅都较大,例如,Ian Goodfellow(伊恩·古德费洛)等著、赵申剑等译的《深度学习》英文版643页,中文版500页 [1],Simon Haykin(西蒙·赫金)著、申富饶等译的《神经网络与机器学习》英文版937页,中文版572页 [2]。
如果想快速入门学习数据科学的实用技术,我推荐署名为LazyProgrammer编写的极简教程小册子,内容精炼、实用。此书标题较长:
《Deep Learning in Python :Master Data Science and Machine Learning with Modern Neural Networks written in Python, Theano, and TensorFlow》
即:《Python深度学习——掌握数据科学和机器学习利用Python、Theano和TensorFlow编写现代神经网络》.
如下是这本极简教程的目录[3]:
引言 第1章 什么是神经网络? 第2章 生物类比 第3章 从神经网络获取输出 第4章 训练反向传播神经网络 第5章 Theano 第6章 TensorFlow 第7章 无监督学习,自动编码器,受限玻尔兹曼机,卷积神经网络和LSTM 结论 |
这本极简教程的所有示例都是用Python语言编程。Python是面向对象解释性计算机程序设计语言。著名的AlphaGo就是利用Python编程。从2016年以来,Python已经成为许多大数据企业和高科技公司(如Facebook、Google等)的首要编程语言。Python是许多程序员最喜欢实用的语言,最近在一些程序员圈子里,甚至相互间有这样的传言“人生苦短,快用Python”。
正如作者在书中指出过的,“虽然深度学习是一门复杂的学科,但学习起来不比学习任何其它机器学习算法困难。我写这本书的目的是介绍神经网络的基本知识。你将会得到本科水平的数学和编程技能”。
这本极简教程的所有资料均可下载并免费安装。作者在有关章节中介绍了如何使用Numpy、Theano和TensorFlow建立深度学习网络。TensorFlow是专用于深入学习的程序库,并可以利用GPU加速计算。
实战指南
从极简教程,可以快速学习到深度学习的基本知识。如果想进一步学习数据科学,特别是机器学习技术,在已出版的出版物中,我特别推荐尼克·麦克卢尔(Nick McClure)著、曾益强译的《TensorFlow机器学习实战指南》[4]。
书的原名是《TensorFlow Machine Learning Cookbook》。译者把由“Cookbook”译为“实战指南”,强调了由资深数据科学家撰写的这本书,是从实战角度系统讲解TensorFlow基本概念及各种应用实践,可以用于实际项目开发。而“Cookbook”的原意是“菜谱”或“烹饪书”,凸显了本书风格的简洁明了:每一节的内容一般包括“开始”、“动手做”、“工作原理”、“延伸学习”和“参考”等几个部分。
书中使用真实的应用场景和数据,提供TensorFlow的Python使用方式,有丰富的代码实例,详尽的操作步骤,你可以下载代码实例,试验运行,由浅入深系统掌握TensorFlow机器学习算法及其实现。其网址是:
https://github.com/nfmcclure/tensorflow_cookbook
在这个网址提供各个章节持续更新的示例源码。在我撰写这个博文时,重新下载了所有源码,发现有的章节是在几天前才更新,当然大部分是几个月前或一年前更新的。
《TensorFlow机器学习实战指南》一书分为11章,目录如下:
第1章 TensorFlow基础 第2章 TensorFlow进阶 第3章 基于TensorFlow的线性回归 第4章 基于TensorFlow的支持向量机 第5章 最近邻域法 第6章 神经网络算法 第7章 自然语言处理 第8章 卷积神经网络 第9章 递归神经网络 第10章 TensorFlow产品化 第11章 TensorFlow的进阶应用 |
我这里要特别讲一下TensorFlow。TensorFlow是Google发布的第二代深度学习系统,最初由Google大脑小组开发,用于机器学习和深度神经网络方面的研究,但这个系统的通用性,使其也可广泛用于其它计算领域。正如TensorFlow中文社区的网页首页中所称的,“TensorFlow 是一个用于人工智能的开源神器”。
根据2018 TensorFlow开发者峰会报道[5],TensorFlow 在许多不同的领域都取得了巨大的进步。例如:天体物理学家用于分析开普勒任务中的大量数据,以发现新的行星;医学研究人员来评估心脏病发作和中风的几率;空中交通管制员用它来预测飞机最有可能行经的路线,以确保飞机安全着陆;工程师使用它来分析热带雨林中的声音数据,以检测伐木车和其他非法活动;科学家在非洲用它来检测木薯植物疾病,从而提高产量并帮助更好地满足非洲大陆的粮食需求。
其实,还有许多应用领域这里没有提到,例如,我以前工作的地震勘探领域,传统的地震全波形反演算法可以构造为递归神经网络,并使用TensorFlow的深度学习软件来实现(顺便说,弹性波全波形反演被某些地球物理学家看作梦寐以求的“圣杯”)。
结论
“大数据”时代已经降临。人工智能机器学习正在重塑我们的世界。无论工业、农业、商业、交通运输,无论科学、教育、文化、医疗卫生,各个领域都对数据科学家有大量的需求。
有众多的数据科学特别是机器学习的巨著,从理论和实际应用全面介绍基本模型、方法和技术。但是,如果希望快速入门或转型,学习数据科学的基本知识特别是机器学习编程,可以选择首先阅读“极简教程”和“实战指南”之类的书籍或在线课程。
参考资料:
[1] 伊恩.古德费洛等著.赵申剑等译.深度学习.人民邮电出版社.2017.
[2] Simon Haykin(西蒙•赫金)等著.申富饶等译.神经网络与机器学习.2011.
[3] LazyProgrammer.Deep Learning in Python: Master Data Science and Machine Learning with Modern Neural Networks written in Python, Theano, and TensorFlow. 2016.见:
http://bookos-z1.org/book/2749863/438c3f
[4] 尼克•麦克卢尔(Nick McClure)著.曾益强译.TensorFlow机器学习实战指南.机械工业出版社.2017.
[5] 谷歌开发者. 2018 TensorFlow开发者峰会总结. 见:
https://blog.csdn.net/jILRvRTrc/article/details/79784149
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-5 10:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社