czhou28的个人博客分享 http://blog.sciencenet.cn/u/czhou28

博文

爬取网站视频简单方法之一:python的you-get模块使用方法

已有 11177 次阅读 2021-2-20 13:10 |个人分类:Python|系统分类:科研笔记

目的:网站有海量的视频(包括讲座、电影电视剧等),用python语言的you-get模块爬下来

 

1.安装you-get模块

pycharmterminal下安装。pip install you-get或者pycharm>Files>settingsproject>python Interpreter>在线安装

2.使用you-get下载视频的方法

最傻瓜最友好的办法:

you-get 视频地址即url,如下载https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057的视频,就用下面这行代码就行了。

you-get  https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057

爬取视频就解决了,忙人就不用往下看了。



+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

如果想进一步了解,咱们继续往下看。


如下载王立群先生在B站的秦始皇讲座视频,网址为:https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057

-l或者 --playlist        Prefer to download a playlist    下载全部视频(电视剧或者多集视频的)

-i 或者--info           显示该视频的格式和大小等信息

如输入you-get -i https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057,则显示

                                          qq1.png

显示出该视频第一集有5种格式&清晰度的文件。下载哪种视频,则把那种#download-with参数加上即可,如下载mp4 高清720p的则输入下属命令即可

you-get --format=flv720 https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057

出现:

qq2.png

 

 对多集的视频可以添加-l或者 –playlist来实现全部下载。

you-get -l --format=flv720 https://www.bilibili.com/bangumi/play/ss29083/?from=search&seid=14662268324799178057

qq3.png

这时,硬盘上(本次下载在E:pythonProject目录下)就有了第一集“百家讲坛之王立群读《史记》秦始皇:第1集 荆轲刺秦王.flv”的视频了。也可以通过在  you-get  后面添加      -o DIR, --output-dir DIR  设置要把下载的视频放入的文件夹(you-get的其他命令参见下文)。等其他集下载完成后,硬盘上也就有了其他集的视频。


要暂停下载,用Ctrl+C暂停下载。要想中断执行中的下载,在上图的Terminal  Local这一行点击右键,在出现的菜单中选择close tab即可中断下载。

顺便说一句,要中断执行的其他python程序,也是同样操作。

 

关于you-get的其他命令,在pycharmterminal下输入you-get即可显示出来

(venv) E:\pythonProject>you-get

usage: you-get [OPTION]... URL...

A tiny downloader that scrapes the web

 

optional arguments:

  -V, --version         Print version and exit

  -h, --help            Print this help message and exit

 

Dry-run options:  (no actual downloading)

  -i, --info               Print extracted information

  -u, --url                Print extracted information with URLs

  --json                 Print extracted URLs in JSON format

 

Download options:

  -n, --no-merge        Do not merge video parts

  --no-caption          Do not download captions (subtitles, lyrics, danmaku, ...)

  -f, --force              Force overwriting existing files

  --skip-existing-file-size-check                                            Skip existing file without checking file size

  -F STREAM_ID, --format STREAM_ID                          Set video format to STREAM_ID

  -O FILE, --output-filename FILE                                       Set output filename

  -o DIR, --output-dir DIR                                                   Set output directory

  -p PLAYER, --player PLAYER                                         Stream extracted URL to a PLAYER

  -c COOKIES_FILE, --cookies COOKIES_FILE              Load cookies.txt or cookies.sqlite

  -t SECONDS, --timeout SECONDS                                 Set socket timeout

  -d, --debug                                                                        Show traceback and other debug info

  -I FILE, --input-file FILE                                                 Read non-playlist URLs from FILE

  -P PASSWORD, --password PASSWORD                     Set video visit password to PASSWORD

  -l, --playlist                                                                      Prefer to download a playlist

  -a, --auto-rename                                                             Auto rename same name different files

  -k, --insecure                                                                   ignore ssl errors

 

Proxy options:

  -x HOST:PORT, --http-proxy HOST:PORT                                                       Use an HTTP proxy for downloading

  -y HOST:PORT, --extractor-proxy HOST:PORT                                                  Use an HTTP proxy for extracting only

  --no-proxy                                                                                                              Never use a proxy

  -s HOST:PORT or USERNAME:PASSWORD@HOST:PORT, --socks-proxy HOST:PORT or USERNAME:PASSWORD@HOST:PORT      Use an SOCKS5 proxy for downloading

 




https://blog.sciencenet.cn/blog-856115-1273047.html

上一篇:python第三方模块的安装方法总结
收藏 IP: 27.189.220.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 15:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部