|
写在最前面:我不甚乐意明目张胆地分享如何爬数据,因为不确定会不会有人拿这个代码去做一些离谱的事。众所周知,政府的数据网站都是很拉跨的,万一使用不当冲了那个网站,可能以后大家都没得爬了。基于上述原因,我把两个代码里的目标网站都删除了。如果,你恰好能找到那个网站,那这个程序就可以正常使用了。另外,因为这个是部署在虚拟服务器上的,所以是linux版式的.py,如果需要在pc上运行,需要做一些简单的修改,主要是文件路径那部分,其余都是通用的
写在前面:爬虫的本质是其实是信息的解析,所以大部分时间都用来做文字处理工作。在此之前,获得干净的数据源也很重要,这样可以省去比较多的麻烦。因此,要学会f12查看网页的源代码,在源代码中可以获得很多有用的信息。而信息解析也是基于源代码,获取源代码之后,爬虫的工作其实就完成了。接下来就是,数据的清理,去除掉源代码中多余的内容,留下需要的数据,并将数据形式处理成自己需要的格式,然后储存起来。文字的处理大多使用re(正则表达式)进行的,这点需要明确。整个的爬虫工作流程就是这样,对于不同的信息,采用不同的re策略来处理,是爬虫最重要的部分。不过这两个示例也不算非常完美,因为都是随便写写来着,能达到目的就好了,我也懒得去搞优化了,这点还请见谅
代码如下:
祝大家生活愉快
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-3-22 19:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社