zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

走进数据挖掘

已有 2269 次阅读 2022-5-30 07:31 |个人分类:科普|系统分类:科普集锦

走进数据挖掘

 

在汉语中,数据也叫数值,它是通过观察、实验或计算得出的结果。其最简单的形式就是数字,也可以是文本、图像、声音等(参考链接[1])。在计算机领域,各种字母、数字符号的组合、语音、图形、图像等统称为数据,它经过加工后就成为信息(参考链接[2])。不管如何定义,一般而言,数据就是一种生物、化学、物理、计算机等多个学科产生的结果和现象。

 

数据里面有什么信息、规律或模式?怎么有效利用数据解释现象和指导工作?等等!诸如此类,都是数据挖掘(Data Mining)所要研究的基本问题。根据研究问题,数据挖掘大致可以定义为是从大量数据中,通过技术手段提取出数据内潜在的信息和知识。

 

数据挖掘属于数据科学的重要分支走进数据科学),它强调了数据挖掘算法在挖掘数据中的重要性和智能性。那么,如何走进数据挖掘领域呢?通常的做法是阅读相关经典书籍。选择合适的数据挖掘书籍对于走进数据挖掘领域还是很重要的,尤其是一些概念、方法、原理等。

 

第一本书籍《数据挖掘导论》(图1)由Pang-Ning Tan等主编,范明等翻译,是数据挖掘领域的畅销书籍。全书涵盖5个主题:数据、分类、关联分析、聚类和异常检测。可以说,概述在概念和算法解释方面非常通俗易懂,是数据挖掘入门的良好教材。

image.png 

1 《数据挖掘导论》

 

第二本书籍《数据挖掘基础教程》(图2)是Soman.K.P等主编,范明等翻译。该书全面介绍数据挖掘的原理、方法和算法。涵盖主题包括数据挖掘的基本概念、数据类型、输入和输出、决策树、预处理和后处理、关联规则、分类和回归、支持向量机、聚类分析及多维数据可视化。理论与实践结合是本书的特点之一,讲解也是深入浅出。在实践方面,推荐了两款数据挖掘软件(WekaExcelMiner),便于操作实践。

image.png

2 《数据挖掘基础教程》

 

第三本书籍《数据挖掘:概念与技术》(图3)由著名华裔计算机学家Jiawei Han(韩家炜)教授等主编,范明等翻译。与前面两本书籍的编排不同,该书全面地讲述数据挖掘领域的重要知识和技术创新。在常规数据预处理、分类、聚类、关联规则等编排基础上,还讲述了挖掘数据流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据方面的内容。

 

image.png

3 《数据挖掘:概念与技术》

 

第四本书籍《数据挖掘:实用机器学习工具与技术》(图4)由新西兰计算机学家Ian H. Witten等主编,李川等翻译。该本书是机器学习Weka软件(详见机器学习软件推荐一个)的配套书籍,也是数据挖掘领域的畅销书籍。该书对数据挖掘领域的机器学习技术和工具以及实践方法进行了详细介绍,实践操作都是基于Weka软件。涵盖内容包括:数据输入/输出、知识表示、相关技术(决策树、关联规则、实例学习、线性模型、聚类等)以及在实践中的应用。

 

image.png

4 《数据挖掘:实用机器学习工具与技术》

 

后话

以上四本数据挖掘相关书籍是数据挖掘领域的经典书籍,对于掌握数据挖掘的基本理论和应用非常有参考价值。作为参考书籍,翻阅一遍往往是不够的。另外,数据挖掘领域更新也快,这些书籍往往局限于已有的技术和方法。在掌握已有技术和方法基础上,还需要查阅数据挖掘领域的最新会议论文和期刊杂志等。

 

参考链接

[1] https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE/33305?fr=aladdin

[2] https://upimg.baike.so.com/doc/5387430-7565065.html

 

以往推荐如下:

1. 因果推理综述推荐一篇

2. 生物学家的机器学习指南

3. 基础模型的机遇与风险

4. 一份单细胞数据分析教程

5. R/Shiny交互式生物Web应用程序

6. VOSviewer:文献图谱可视化

7. 卡片式笔记工具:Roam Research

8. 国外知乎:Quora

9. 生信问答平台:Biostars

10. IT问答平台:Stack Overflow

11. 预印本知多少?

12. 借助Bioconductor策划单细胞分析

13. 要选哪个蛋白质互作数据库作为先验信息?

14. mRNA表达无法取代蛋白质表达

15. scIB:单细胞数据融合基准框架

16. 临床医疗维修店铺

17. NAguideR:填充蛋白质组学数据缺失值

18. 怎样做好一项研究?

19. 怎样做开题报告?

20. 深度学习助力单细胞数据分析

21. Any RNA

22. 走进数据科学

23. 直抵自闭症核心

24. 癌症内RNA

25. 一对搭档:计算与生物

26. TF靶标

27. 生物组织内细胞通讯

28. 记一次主题编辑经历

29. 6个,10个,14......

30. 你健康吗?

31. 你衰老了吗?

32. scIMC:填充单细胞转录组数据缺失值

33. 差异表达分析:经典方法未必逊色于流行方法

34. 多组学的基本要素

35. 怎样开展网络数据分析?

36. miRNA组学

 

image.png

image.png 




https://blog.sciencenet.cn/blog-571917-1340771.html

上一篇:miRNA组学
下一篇:让机器真正学习
收藏 IP: 39.128.55.*| 热度|

3 李宏翰 孙颉 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 00:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部