wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

R语言豆瓣图书Top250数据采集

已有 1419 次阅读 2019-5-14 10:10 |个人分类:研究生课程论文|系统分类:论文交流

数据采集小作业-(10)R语言豆瓣图书Top250数据采集

作者:支席年

指导教师:王文武

单位:曲阜师范大学  统计学院


        本文主要介绍了基于R语言rvest包的网络数据采集,包括其中一些函数的用法,如负责读取网页内容的read_html()函数,对提取信息进行定位的htmo_nodes()函数等。简单介绍了string包和其中函数的功能和用法,并以豆瓣图书Top250为例,进行了实际的数据采集。

        除此之外,由于现在网络数据采集的主要工具是Python,我们通过查找资料,找到了相同案例下的Python程序,对R语言爬虫和Python爬虫在提取250本图书的url上做了简单的比较。


        具体研究见附件。

支席年-豆瓣图书Top250数据采集.pdf




http://blog.sciencenet.cn/blog-3316039-1178911.html

上一篇:基于R语言爬取BOSS网站招聘信息
下一篇:租房信息采集 ——基于安居客网站的北京租房信息采集分析

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-24 09:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部