||
数据采集小课题-(1)R语言爬虫:济宁市二手车信息的收集
作者:周璇
指导教师:王文武
单位:曲阜师范大学 统计学院
本文主要介绍如何使用R软件快速获取网页数据的一种方法技巧。首先简单介绍R语言爬虫,即使用R软件的相关程序从网页上获取数据,将非结构化的数据转化为结构化的数据;简介R语言爬虫常用的包RCurl和rvest包及其使用方法。然后介绍高效爬虫的“利器”SelectorGadget工具,提供该工具的获取和使用方法后,用以解决实际问题:为济宁市二手车买家提供系统、有序的二手车信息以便于卖家高效决策。本文使用rvest包和SelectorGadget工具爬取“二手车之家”网站上济宁二手车的相关信息,得到数据后使用SPSS软件进行数据分类汇总、可视化等的数据分析,为二手车买家提供简单直观的对比信息,能够高效的进行决策和选择所购买的车辆。最后总结使用R语言爬虫的方法经验以及注意问题。
具体研究见附件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 21:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社