博文

部署在服务器上的水文数据爬虫

已有 1246 次阅读 2022-10-6 16:40 |系统分类:科研笔记

写在最前面：我不甚乐意明目张胆地分享如何爬数据，因为不确定会不会有人拿这个代码去做一些离谱的事。众所周知，政府的数据网站都是很拉跨的，万一使用不当冲了那个网站，可能以后大家都没得爬了。基于上述原因，我把两个代码里的目标网站都删除了。如果，你恰好能找到那个网站，那这个程序就可以正常使用了。另外，因为这个是部署在虚拟服务器上的，所以是linux版式的.py，如果需要在pc上运行，需要做一些简单的修改，主要是文件路径那部分，其余都是通用的

写在前面：爬虫的本质是其实是信息的解析，所以大部分时间都用来做文字处理工作。在此之前，获得干净的数据源也很重要，这样可以省去比较多的麻烦。因此，要学会f12查看网页的源代码，在源代码中可以获得很多有用的信息。而信息解析也是基于源代码，获取源代码之后，爬虫的工作其实就完成了。接下来就是，数据的清理，去除掉源代码中多余的内容，留下需要的数据，并将数据形式处理成自己需要的格式，然后储存起来。文字的处理大多使用re（正则表达式）进行的，这点需要明确。整个的爬虫工作流程就是这样，对于不同的信息，采用不同的re策略来处理，是爬虫最重要的部分。不过这两个示例也不算非常完美，因为都是随便写写来着，能达到目的就好了，我也懒得去搞优化了，这点还请见谅

代码如下：

im2.py

linuxcj.py

祝大家生活愉快

转载本文请联系原作者获取授权，同时请注明本文来自屈一晗科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3503582-1358248.html

上一篇：定间距断面插值的matlab代码