zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

走进数据科学

已有 3386 次阅读 2022-3-22 14:51 |个人分类:读书|系统分类:科普集锦

走进数据科学

 

在大数据背景下,作为基础性战略资源的数据科学(Data Science)从幕后走向台前。随之而来的是,大数据处理和分析的高级复合型人才需求量骤增。2016年,教育部首次在本科专业目录增设“数据科学与大数据技术”。短短6年,也就是2022年,开设“数据科学与大数据技术”专业的高校就600余所。这么多高校之所以能开设数据科学类专业,很大程度取决于数据科学依托的学科都是比较成熟的学科,例如统计学、计算机科学、信息学等。

 

维基百科中,数据科学定义为是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。简而言之,数据科学以各种不同类型的数据为“粮食”,借助各种“炊具”(例如统计分析、机器学习、高性能计算等)进行烹饪的一门学科。

 

数据科学已经成为国家重要的基础性战略资源,如何走进数据科学的大门,成为大家很关心的一个问题。20213月,中国人民大学出版社出版了中国人民大学统计学院李扬教授和“统计之都”核心成员李舰合著的《数据科学概论》(图1)。区别于覃雄派、陈跃国和杜小勇老师合著的《数据科学概论》(图2),本书最大的特色是实践性强,每章都提供配套的RPython代码进行入门级数据处理和分析。

 

image.png  

1 数据科学概论

 

image.png

2 数据科学概论(第二版)

 

数据科学涉及的学科领域和基础知识多而杂,整合这些内容本身就是一项不那么容易的事情。本书作为数据科学与大数据技术丛书之一,但凡需要跟数据打交道,它都可以作为一本实操性强的工具书,带你走进数据科学的大门。

 

全书分为12个章节,从基本概念、编程工具、数学基础、统计原则、计算机技术与平台,到行业应用,都进行了由浅入深的介绍。因为是概论,很多内容做到了点到为止。

 

第一章(绪论)介绍了数据科学的概念、发展变迁和应用领域。

 

第二章(数据科学的编程工具)推荐了三款流行编程工具:RPythonJulia

 

第三章(数据科学的数学基础)简略的给出数据科学会用到的数学基础:线性代数、概率论与数理统计以及最优化方法。

 

第四章(数据科学的统计原则)介绍了在进行数据处理与分析过程的三大原则:可重复原则、可预测原则和可计算原则。

 

第五章(数据可视化)介绍了可视化基础、可视化与数据分析以及现代数据可视化方法。

 

第六至第十一章(数据挖掘和机器学习、人工智能、非结构化数据分析、数据库和数据仓库、大数据平台、可重复研究与产品化)主要介绍数据分析工具,脑阔机器学习、人工智能、非结构化数据分析、数据存储工具、大数据分析平台和数据产品设计与开发。

 

第十二章(数据科学的行业应用)主要从四个领域(互联网行业、零售行业、金融行业和医疗健康行业)给出具体数据分析案例。

 

本书既有理论介绍,又有应用实例。第十二章(数据科学的行业应用)都可以作为每个行业领域的课程设计来进行数据分析实操。值得注意的是,书中所涉及的数据和代码都已开源,这些可以辅助入门。

 

后话

数据科学涉及的领域非常广,但凡每个需要数据处理与分析的学科都与之密切关联。例如,医学信息学、生物信息学、药物信息学、地理信息科学等都可以在其麾下。

 

参考文献与链接

[1] https://zh.wikipedia.org/zh-hans/%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6

[2] http://product.dangdang.com/29210284.html

[3] http://product.dangdang.com/29362851.html

[4] 李扬, 李舰. 数据科学概论[M]. 中国人民大学出版社, 2021.

[5] 覃雄派,陈跃国,杜小勇. 数据科学概论(第2版)[M]. 中国人民大学出版社, 2021.

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

15. scIB:单细胞数据融合基准框架

16. 临床医疗维修店铺

17. NAguideR:填充蛋白质组学数据缺失值

18. 怎样做好一项研究?

19. 怎样做开题报告?

20. 深度学习助力单细胞数据分析

21. Any RNA

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1330564.html

上一篇:Any RNA
下一篇:直抵自闭症核心
收藏 IP: 39.128.54.*| 热度|

4 李宏翰 罗春元 谢钢 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 18:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部