|||
工具 : requests 库
解析: beautifulsoup
目标网站 :新片场 https://www.xinpianchang.com/square
任务: 视频抓取
1,分析目标网站
通过对目标网站的获取 我们获得一个我们想要的链接 https://qiniu-xpc4.xpccdn.com/5d8861f66c4af.mp4
寻找一个虚拟的头文件
User-Agent:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
定义一个视频存储的路径
root="D://SP//"
并且以url的最后一个“\”后的字符问视频名称
path = root + url.split('/')[-1]
然后用 try except 框架来判断文件夹是否存在 如若不存在 那么就调用requests库来进行爬取,进行保存
若果存在 就报文件存在
贴出源码
#引入requests库
import requests
#解析主页,获得url
url =" https://qiniu-xpc10.xpccdn.com/5e38f4b527a11.mp4"
import os
#根据解析主页,给定一个use-agent
header={"Use-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
#给定一个根目录
root="D://SP//"
#定义一个路径,并根据url设定一个底层文件
path = root + url.split('/')[-1]
#用try,expcet来完成主框架,判断是否存在根目录,若不存在,进行创建,判断是否存在路径,若不存在进行requests获取,保存文件。
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url,headers=header)
with open(path, 'wb')as f:
f.write(r.content)
f.close()
print("文件保存成功")
else:
print("文件已存在")
except:
print("爬取失败")
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-28 02:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社