博文

R语言豆瓣图书Top250数据采集

已有 2669 次阅读 2019-5-14 10:10 |个人分类:研究生课程论文|系统分类:论文交流

数据采集小作业-（10）R语言豆瓣图书Top250数据采集

作者：支席年

指导教师：王文武

单位：曲阜师范大学统计学院

本文主要介绍了基于R语言rvest包的网络数据采集，包括其中一些函数的用法，如负责读取网页内容的read_html()函数，对提取信息进行定位的htmo_nodes()函数等。简单介绍了string包和其中函数的功能和用法，并以豆瓣图书Top250为例，进行了实际的数据采集。

除此之外，由于现在网络数据采集的主要工具是Python，我们通过查找资料，找到了相同案例下的Python程序，对R语言爬虫和Python爬虫在提取250本图书的url上做了简单的比较。

具体研究见附件。

转载本文请联系原作者获取授权，同时请注明本文来自王文武科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3316039-1178911.html

上一篇：基于R语言爬取BOSS网站招聘信息
下一篇：租房信息采集 ——基于安居客网站的北京租房信息采集分析

收藏 IP: 60.211.229.*| 热度|

数据加载中...

返回顶部