lvxiangyang的个人博客分享 http://blog.sciencenet.cn/u/lvxiangyang

博文

如何使用python网络爬虫批量获取公共资源数据?详细教程

已有 142 次阅读 2024-7-3 16:07 |个人分类:人工智能|系统分类:科研笔记

一:Python软件的安装及入门

1 Python软件安装及入门

1)Anaconda软件安装

2)Python库的安装与基本语法

3)Python的字符操作与正则表达式

4)Python的数据清洗与存储

5)HTML和XML基础

二:Python爬虫基础

2 Python爬虫基础

1)爬虫的工作流程

2)发送请求及获得页面

Requests库的使用

获取代理、设置代理ip池及反爬虫

3)解析页面技术:

正则表达式使用

BeautifulSoup库的使用

CSS选择器使用

Xpath、lxml、entree语法讲解

PyQuery库使用

三:Python爬虫全流程

3 Python爬虫全流程

1)抓取的数据形式:文本、图片、链接

2)保存和清洗获取的数据

3)如何使用多线程提高爬虫的效率

4)案例:使用五种不同解析技术爬取经济、天气、土壤、品种大数据

四:Python爬虫模拟器

4 模拟浏览器Selenium使用

1)Selenium库的

2)Selenium定位元素(id/name/class/tag/text/xpath/css定位)

3)Selenium操作网页(点击、保存、刷新等)

4)Selenium显式等待和隐式等待

5)案例:使用Selenium爬取农业大数据

五:Python 爬取异步加载网页及数据集网站

5 Python 爬取异步加载网页及数据集网站

1)Ajax请求和JS渲染

2)json解析、XHR

3)案例:使用Ajax爬取和下载动态图片库

4)案例:使用json解析爬取数据类网站

5)案例:使用一些特定库爬取大型数据集网

6)案例:如何爬取pdf中的表格数据

原文链接:公众号:技术科研吧



https://blog.sciencenet.cn/blog-3595493-1440809.html

上一篇:微尺度气象数值模拟—大涡模拟技术
收藏 IP: 111.225.74.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-3 19:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部