|
目前python主流的爬虫包为requests与urllib,但是requests包在访问网页时经常报错,原因也没有完全解决,根据查询应该是requests包不支持https访问。
urllib在获取网站源代码时,需要解析网页代码,一般是html或者css。在解析网页时,需要用到re(正则表达式)包,BeautifulSoup
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-3-23 03:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社