wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

R语言爬虫:济宁市二手车信息的收集

已有 2417 次阅读 2019-5-13 11:23 |个人分类:研究生课程论文|系统分类:论文交流

数据采集小课题-(1)R语言爬虫:济宁市二手车信息的收集

作者:周璇

指导教师:王文武

单位:曲阜师范大学  统计学院


本文主要介绍如何使用R软件快速获取网页数据的一种方法技巧。首先简单介绍R语言爬虫,即使用R软件的相关程序从网页上获取数据,将非结构化的数据转化为结构化的数据;简介R语言爬虫常用的包RCurl和rvest包及其使用方法。然后介绍高效爬虫的“利器”SelectorGadget工具,提供该工具的获取和使用方法后,用以解决实际问题:为济宁市二手车买家提供系统、有序的二手车信息以便于卖家高效决策。本文使用rvest包和SelectorGadget工具爬取“二手车之家”网站上济宁二手车的相关信息,得到数据后使用SPSS软件进行数据分类汇总、可视化等的数据分析,为二手车买家提供简单直观的对比信息,能够高效的进行决策和选择所购买的车辆。最后总结使用R语言爬虫的方法经验以及注意问题。

具体研究见附件。

周璇-济宁市二手车信息的收集.pdf




https://blog.sciencenet.cn/blog-3316039-1178700.html

上一篇:新生寄语
下一篇:基于天气后报网的温度信息采集分析
收藏 IP: 60.211.229.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 01:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部