||
这里不详细介绍怎么使用Chrome内置开发工具进行抓包分析,只是对之前的一篇博文中的关于抓包获取url的过程经行一个补充说明,所以在看这篇文章之前,确保你已经读过下面这篇文章:
在之前关于python爬虫的第二篇文章中,我提到了用来解析的json数据的来源是抓包分析,也就是说用来爬去的那个关键的url是抓包分析得来的。那么,这里就简单重复一遍利用Chrome内置开发工具找到关键url的全过程,并做出必要的解释。首先,抓包分析的准备过程可以简单归纳为以下几点:
用Chrome浏览器打开目标网址(进入up主的空间)
按下F12,打开开发者工具
点击Network,进入抓包分析工具界面
如果按照上述步骤完成,你会看到如下的界面。红圈圈住的Network便是今天的主角:
接下来让我们刷新一下界面(F5),Network便会抓住客户端对服务器请求的反馈,也就是“包”,并且将它们进行分类显示在下面的表格中,这个过程便是“抓包”。
我们这里主要关注XHR对象,因为我们的最终目的是需要爬去up主的所有视频的aid,这是一个列表信息,当客户端请求访问up主主页时,这个列表信息是一定会返回给客户端的,而且是以XHR的形式反馈回来。XHR的全称是XMLHttpRequest,可以发现这本就是用来处理XML文本的ajax框架下的接口。
在XHR对象类型的列表中,可以发现一个8.8KB的包,名称为getSubmitVideos。点开后可以看到其中的文本内容与该对象的详细描述(红圈部分便是我们需要的关键url):
如需python源码,请关注:
https://github.com/JinyuGuan/JINYU.git