|
Python获取网页的步骤
一、先导入依赖包
import urllib
二、打开网址
(1) 方式一
response = urllib.urlopen(url)
(2)方式二
#请求 request = urllib.request.Request(url) #爬取结果 response = urllib.request.urlopen(request)
三、获取网页的内容
data = urllib.urlopen(url).read() data = data.decode('UTF-8')
四、网页的相关内容
url_response = request.urlopen(url) #打开一个url或者一个Request对象 ''' geturl():返回 full_url地址 info(): 返回页面的元(Html的meta标签)信息 <meta>:可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。 getcode(): 返回响应的HTTP状态代码 100-199 用于指定客户端应相应的某些动作。 200-299 用于表示请求成功。 ------> 200 300-399 用于已经移动的文件并且常被包含在定位头信息中指定新的地址信息。 400-499 用于指出客户端的错误。 ------> 404 500-599 用于支持服务器错误。 read(): 读取网页内容,注意解码方式(避免中文和utf-8之间转化出现乱码) ''’
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 15:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社