博文

如何用4行 R 语句，快速探索你的数据集？精选

已有 17039 次阅读 2018-7-23 07:30 |系统分类:科研笔记

用最简单的方式，完成探索性分析。

痛点

实践中，大量数据分析时间，都会花在数据清洗与探索性数据分析（Exploratory Data Analysis, EDA）。即缺失值统计处理，和变量分布可视化。

数据采集过程中，可能有缺失。

你需要了解缺失数据的多少，以及它们可能对后续分析造成的影响。

如果某个变量的缺失数据少，干脆把含有缺失值的行（观测）扔掉就算了，免得影响分析精确程度。

但如果缺失数据太多，都扔掉就不可行了。你需要考虑如何进行填补。是用0，用 "unknown" ，还是使用均值或中位数？

另外，你可能还想看看每个特征变量的分布情况。

例如定量数据是正态分布，还是幂律分布？这对你后面合理进行研究假设，都是有影响的。

即便是对于分类数据，你也要了解独特取值（unique values）的个数，以便做到心中有数。

这些工作很有必要。但是实现起来，却一直很麻烦。即便是 R 这样专门给统计工作者使用的软件，从前也需要调用若干条命令（一般跟特征变量个数成正比），才能完成。

我最近发现了一款 R 包，可以非常方便地进行数据集总结概览。只要一条语句，就帮你完成探索性数据分析中的许多步骤。

通过本文，我把它分享给你。希望对你的数据分析工作有帮助。

演示

你不需要安装任何软件。只需要点击这个链接（http://t.cn/Rg1JFfo），就可以使用 R 编程环境了。

等准备工作完毕，你会看到，浏览器里面开启了一个 RStudio 界面。

点击左上角的 File -> New File ，选择菜单里面的第一项 R Script 。

此时，你会看到左侧分栏一个空白编辑区域开启，可以输入语句了。

输入之前，我们先给文件起个名字。点击 File -> Save 按钮。

在新出现的对话框里面，输入 demo ，回车。

我们一共需要如下输入4条语句。你可以直接复制粘贴进编辑区域。

library(tidyverse)
library(summarytools)
flights <- read_csv("https://gitlab.com/wshuyi/demo-data-flights/raw/master/flights.csv")
view(dfSummary(flights))

分别解释一下含义。其实前3行语句，都是准备工作。真正总结概览功能，只需第4条。

第一行： tidyverse 是一个非常重要的库。可以说它改进了 R 语言处理数据的生态环境。而这个库中的大部分工具，都是 Hadley Wickham 一己之力推动和完成的。

第二行： summarytools 是我们今天用来总结概览数据的软件包名称。

第三行：使用 read_csv 做数据读入。我们是从这个网址读取的，并且把数据存储到 flights 变量中。

你可以点击该链接（http://t.cn/Rg1XCCN），下载原始数据 csv 文件，查看其内容。

这个数据集，来自于 Hadley Wickham 的 github 项目，名称叫做 nycflights13 。

它记录的是 2013 年，纽约市3大机场（分别为： JFK 肯尼迪国际机场、 LGA 拉瓜迪亚机场，和 EWR 纽瓦克自由国际机场）起飞的航班信息。

具体的记录信息（特征列），包括起飞时间、到达时间、延误时常、航空公司、始发机场、目的机场、飞行时长，和飞行距离等。

这个表格，看起来已经是很清晰的了。但是，由于观测（行）数量众多，我们很难直观分析出缺失值的情况，以及数据的分布等信息。

第4条语句，就是负责帮助我们更好地检视和探索数据用的。它用 dfSummary 函数处理 flights 数据框的内容，然后用 view 函数直观输出给用户。

点击 Code -> Run Region -> Run All 命令，运行代码。

运行中，可能会有一些警告信息。别理它就好。

分析的结果，在右下方的显示区域。因为区域比较小，内容却很多，看不全面。

你可以点击这个区域左上方第三个按钮 Show in new window ，在浏览器新窗口打开完整的显示结果。

解读

因截图篇幅关系，一张图中，无法显示完整信息。就着第一屏，给你讲解一下都有哪些分析结果。

第一列是序号。不用理会。
第二列是变量名称，以及变量的类型。例如 integer 指的是整数类型的定量数据；character 是字符串类型，也就是分类数据。
第三列是统计结果。对于定量数据，直接汇报最大、最小、均值、中位数等信息。
第六列是有效值个数；与其互补，第七列是缺失值个数。
第四列是频数。显示每一个变量对应独特取值出现的情况。
第五列最有意思，直接绘制分布统计图形。

我们翻到下一页看看。

可以看出，起飞延误是个典型的幂律分布。

到达延误，和的起飞延误分布长得很像，想想似乎很有道理。

但到达延误的分布类别是什么呢？为什么二者会有差异呢？

这个问题，供你思考。

探索

本文介绍的 summarytools 包的功能，并不只是对数据集做总体总结概览。

它还可以进行变量之间的关系展示。例如你想知道3大机场起飞的航班，对应航空公司的比例是否有差别。可以用一条语句，就得到这样的一张分析表格：

想自己动手，做出这样一张分析表格？请你点击这个链接(https://github.com/dcomtois/summarytools)，阅读文档，了解 summarytools 的更多功能。

喜欢请点赞。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你对数据科学感兴趣，不妨阅读我的系列教程索引贴《如何高效入门数据科学？》，里面还有更多的有趣问题及解法。

转载本文请联系原作者获取授权，同时请注明本文来自王树义科学网博客。
链接地址：https://blog.sciencenet.cn/blog-377709-1125449.html

上一篇：如何用 Python 脚本批量下载 Google 图像？
下一篇：如何用 R 绘制动态统计图？

收藏 IP: 221.197.66.*| 热度|

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何用4行 R 语句，快速探索你的数据集？精选

痛点

演示

解读

探索

当前推荐数：7 推荐人：胡涛 马省伟 戎可 苏盛 黄永义 郭景涛 李久煊

该博文允许注册用户评论请点击登录评论 (1 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何用4行 R 语句，快速探索你的数据集？ 精选

痛点

演示

解读

探索

当前推荐数：7 推荐人： 胡涛 马省伟 戎可 苏盛 黄永义 郭景涛 李久煊

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

如何用4行 R 语句，快速探索你的数据集？精选

当前推荐数：7 推荐人：胡涛马省伟戎可苏盛黄永义郭景涛李久煊

该博文允许注册用户评论请点击登录评论 (1 个评论)