|
用R/Rstudio进行网页数据下载的一般流程:
打开网页---F12 查看network--获取数据源网址--分析网页代码---
1 用GET POST
(1)GET/POST,request headers, Payload等, 返回 json,数据清洗、整理,保存为文件
(2)GET/POST,request headers, Payload等, 返回 html,用revst处理hmtl,获取html_table等,数据清洗、整理,保存为文件
2 用 Rselenium
(3)Rselenium 模拟浏览器,打开数据源网址,
>>>返回json/html,用revst处理hmtl,数据清洗、整理,保存为文件
>>>返回的是图片,用tesseract OCR 识别,traineddata用Mathematica的文件,系统环境变量设置TESSDATA_PREFIX D:\Program Files\R-Portable\App\R-Portable\library\tesseract\tessdata
>>>返回的是字符(各种混乱处理后的json等),用stringr等截取相应内容,处理字符、列表等,
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社