ayame的个人博客分享 http://blog.sciencenet.cn/u/ayame

博文

部署在服务器上的水文数据爬虫

已有 637 次阅读 2022-10-6 16:40 |系统分类:科研笔记

写在最前面:我不甚乐意明目张胆地分享如何爬数据,因为不确定会不会有人拿这个代码去做一些离谱的事。众所周知,政府的数据网站都是很拉跨的,万一使用不当冲了那个网站,可能以后大家都没得爬了。基于上述原因,我把两个代码里的目标网站都删除了。如果,你恰好能找到那个网站,那这个程序就可以正常使用了。另外,因为这个是部署在虚拟服务器上的,所以是linux版式的.py,如果需要在pc上运行,需要做一些简单的修改,主要是文件路径那部分,其余都是通用的

写在前面:爬虫的本质是其实是信息的解析,所以大部分时间都用来做文字处理工作。在此之前,获得干净的数据源也很重要,这样可以省去比较多的麻烦。因此,要学会f12查看网页的源代码,在源代码中可以获得很多有用的信息。而信息解析也是基于源代码,获取源代码之后,爬虫的工作其实就完成了。接下来就是,数据的清理,去除掉源代码中多余的内容,留下需要的数据,并将数据形式处理成自己需要的格式,然后储存起来。文字的处理大多使用re(正则表达式)进行的,这点需要明确。整个的爬虫工作流程就是这样,对于不同的信息,采用不同的re策略来处理,是爬虫最重要的部分。不过这两个示例也不算非常完美,因为都是随便写写来着,能达到目的就好了,我也懒得去搞优化了,这点还请见谅

代码如下:

im2.py

linuxcj.py

祝大家生活愉快



https://blog.sciencenet.cn/blog-3503582-1358248.html

上一篇:定间距断面插值的matlab代码
收藏 IP: 58.213.140.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-2-7 19:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部