幸福是奋斗出来的分享 http://blog.sciencenet.cn/u/ahyxwangdong 生态学

博文

二、R语言抓取网页信息(用rvest包)——豆瓣图书TOP250

已有 2711 次阅读 2018-1-4 23:00 |个人分类:读书心得|系统分类:科研笔记| R语言

【用rvest爬取豆瓣图书TOP250】例题来自:https://zhuanlan.zhihu.com/p/22940722


> library(rvest)

> web<-read_html("https://book.douban.com/top250?icn=index-book250-all",encoding="UTF-8")

> position<-web%>%html_nodes("p.pl")%>%html_text()

> position

[1] "[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元"    

[2] "[法] 圣埃克苏佩里 / 马振聘 / 人民文学出版社 / 2003-8 / 22.00元"    

[3] "钱锺书 / 人民文学出版社 / 1991-2 / 19.00"                          

[4] "[日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元"          

[5] "余华 / 南海出版公司 / 1998-5 / 12.00元"                            

[6] "[日] 东野圭吾 / 刘姿君 / 南海出版公司 / 2008-9 / 29.80元"          

[7] "[日] 村上春树 / 林少华 / 上海译文出版社 / 2001-2 / 18.80元"        

[8] "[日] 东野圭吾 / 刘子倩 / 南海出版公司 / 2008-9 / 28.00"            

[9] "刘慈欣 / 重庆出版社 / 2008-1 / 23.00"                              

[10] "[捷克] 米兰·昆德拉 / 许钧 / 上海译文出版社 / 2003-7 / 23.00元"      

[11] "[清] 曹雪芹 著 / 人民文学出版社 / 1996-12 / 59.70元"                

[12] "郭敬明 / 春风文艺出版社 / 2003-11 / 20.00元"                        

[13] "[美] 丹·布朗 / 朱振武 / 上海人民出版社 / 2004-2 / 28.00元"          

[14] "柴静 / 广西师范大学出版社 / 2013-1-1 / 39.80元"                    

[15] "[哥伦比亚] 加西亚·马尔克斯 / 范晔 / 南海出版公司 / 2011-6 / 39.50元"

[16] "韩寒 / 国际文化出版公司 / 2010-9 / 25.00元"                        

[17] "顾漫 / 朝华出版社 / 2007-4 / 15.00元"                              

[18] "路遥 / 人民文学出版社 / 2005-1 / 64.00元"                          

[19] "[英] 夏洛蒂·勃朗特 / 世界图书出版公司 / 2003-11 / 18.00元"          

[20] "[英] J. K. 罗琳 / 苏农 / 人民文学出版社 / 2000-9 / 19.50元"        

[21] "东野圭吾 / 刘姿君 / 南海出版公司 / 2013-1-1 / 39.50元"              

[22] "刘慈欣 / 重庆出版社 / 2008-5 / 32.00"                              

[23] "[美国] 玛格丽特·米切尔 / 李美华 / 译林出版社 / 2000-9 / 40.00元"    

[24] "刘瑜 / 上海三联书店 / 2010-1 / 25.00元"                            

[25] "刘慈欣 / 重庆出版社 / 2010-11 / 38.00元"      


html_nodes()函数获取网页里的相应节点

原网页的源代码

</div><pclass="pl">郭敬明 / 春风文艺出版社 / 2003-11 / 20.00元</p><divclass="star clearfix"><spanclass="allstar35"></span><spanclass="rating_nums">7.1</span><spanclass="pl">(                    147847人评价                )</span></div>





http://blog.sciencenet.cn/blog-484693-1093153.html

上一篇:一、R语言读取EXCEL(readxl包)
下一篇:三、R语言抓取网页中表格信息(XML包)

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-22 20:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部