wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

租房信息采集 ——基于安居客网站的北京租房信息采集分析

已有 2054 次阅读 2019-5-14 10:35 |个人分类:研究生课程论文|系统分类:人文社科

数据采集小作业-(11)租房信息采集 ——基于安居客网站的北京租房信息采集分析

作者:何珊珊

指导教师:王文武

单位:曲阜师范大学  统计学院


在本案例中,要采集的是安居客网站中关于北京租房的相关信息,包括有关的标题、房间的构造、房子面积、周边环境(地址)、房租价格、合租/整租、朝向等数据。安居客的房源信息较充足,可以从中获得较好的信息加以分析。本案例分析利用了RCurl、XML和stringr包,RCurl包程序包提供了有R到libcurl库的接口,从而实现HTTP的一些功能;利用XML程序包中的htmlParse函数加抓取HTML页面的函数获得我们所需要的信息;最后通过stringr程序包中的函数功能对获得的信息加以处理。本文通过对安居客中北京租房信息的前五页信息进行抓取,总共采集300个数据,通过对数据的处理,储存为数据框格式,并保存到excel表格中。

具体研究见附件。

何珊珊-北京租房信息采集.pdf




https://blog.sciencenet.cn/blog-3316039-1178918.html

上一篇:R语言豆瓣图书Top250数据采集
下一篇:Rvest包抓取网络数据 ---用rvest包提取澎湃新闻
收藏 IP: 60.211.229.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 23:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部