MDPI开放科学分享 http://blog.sciencenet.cn/u/mdpi https://www.mdpi.com/

博文

Remote Sensing:美国全境河流图像数据集:基于深度学习识别河道与急流 (数据集及配套代码公开)

已有 75 次阅读 2026-3-19 09:16 |个人分类:学术软文|系统分类:论文交流

在水文监测领域,河流形态与水流动态的精准捕捉对水资源管理、生态保护及户外休闲规划至关重要。传统实地勘测耗时耗力且覆盖有限,而遥感技术与深度学习的融合,实现了河流特征识别的自动化突破。

         

来自美国犹他州立大学、美国地质调查局 (USGS) 等机构的学者在 Remote Sensing 期刊联合发表了研究成果,首次构建了覆盖美国全境的大规模河流图像数据集 (CIRRUS),并开发出基于深度学习的河道分割与急流检测模型,实现了对复杂河流地貌的智能识别。这项研究不仅建立了包含281,024张高分辨率卫星与航空影像的公开数据库,更通过先进的计算机视觉技术,为河流监测、生态评估和灾害管理提供了全新的自动化解决方案。

11.png               图1.文章图像摘要

            

  • 研究过程与结果

1. 全方位数据集构建

(1) 影像采集:API 驱动的规模化获取

研究团队采用谷歌地图静态应用程序接口 (Google Maps Static API) 作为核心采集工具,结合美国地质调查局的国家水文数据集 (NHD Plus HR,高分辨率版) 和阿拉斯加 3D 水文计划 (3DHP) 的河流中心线数据,实现标准化影像采集。采集策略极具科学性:全美本土河流沿中心线每3公里取一个采样点,仅保留流域等级4以上、长度超30公里的主干河流,确保影像中河流特征清晰可辨;阿拉斯加地区则筛选有明确地理名称的河流,避免无效采样。

同时补充三大公开急流数据集 (NHD、开源街道地图 OSM、USGS 数据发布) 中的已知急流位置影像,通过 R 语言编写多线程下载脚本,利用 SHA-1 (安全哈希算法1) 加密验证 API 请求,实现每分钟数百张影像的高效获取,最终形成覆盖全美本土及阿拉斯加、地面采样距离 (GSD) 在0.10-0.55米的高分辨率影像库。

            

(2) 元数据与标注:保障数据可用性

采用统一 CSV 元数据文件,每张影像对应唯一主键,包含经纬度、缩放等级、水文单元代码 (HUC2/HUC4,分别对应二级 / 四级水文分区)、标注状态等关键信息,为模型训练与数据筛选提供清晰索引。

标注环节实行 “双标注者共识” 机制确保可靠性:通过 Python 脚本调用元宇宙公司 (Meta) 的 SAM2 (第二代任意分割模型) 辅助河流分割,标注者可通过左键 (正样本)、右键 (负样本) 快速修正掩码;急流标注基于视觉特征——识别影像中因高流速、湍流形成的波浪状、破碎化水面 (白水区),仅当两名标注者判断一致时确认标签,最终完成885张影像的河流分割掩码制作和4058张影像的急流二分类标注。

        

(3) 主动学习优化:提升数据覆盖效率

针对部分水文分区标注样本不足问题,先用初始标注数据训练基线模型,筛选模型置信度接近0.5 (判断模糊) 的样本,补充标注407张影像,既减少冗余工作,又提升模型对边缘案例的识别能力。

           

2.双模型架构:从河流分割到急流精准分类

(1) 河流分割模型:SAM2 精细优化

选用 SAM2 轻量化模型,通过像素级交叉熵损失与交并比 (IoU) 对齐损失双函数提升精度。基于 PyTorch (深度学习框架)训练,设置学习率 1e-6、批次大小32,训练100个 epoch 并启用早停机制。

            

(2) 急流分类模型:ResNetv2 定制化优化

以 ResNetv2_152x2 为骨干网络,替换分类头为三层 MLP (多层感知器) 适配任务。训练集经随机翻转、颜色抖动等数据增强,解冻骨干网络最后一层微调,采用 AdamW 优化器与 ReduceLROnPlateau 学习率调度策略。创新按 HUC4 划分数据子集,测试集选自阿拉斯加,避免空间数据泄露。

         

3. 核心研究结果

(1) 河流分割模型表现

测试集平均 IoU 达0.57,而高置信度 (预测 IoU>0.9) 影像的实际 IoU 飙升至0.89,这类高置信样本占测试集的12%,能精准隔离河流与河岸、阴影、植被等背景干扰。进一步分析显示,模型性能与影像中河流像素占比呈正相关 (相关系数 ρ=0.44),河流占比越高,分割精度越优;而窄支流、部分遮挡河段易出现漏检或误检。

       

(2) 急流分类模型表现

基线模型表现最为突出,准确率与 F1 分数均达0.93,受试者工作特征曲线下面积 (AUC) 值高达0.98。在阿拉斯加独立测试集中,886 张影像分类正确,仅出现17例假阳性 (非急流误判为急流) 和52例假阴性 (急流误判为非急流),且对不同河流颜色、流速、地形条件的适应性强。

22.png

图2.基线输入模型在阿拉斯加测试图像上的混淆矩阵及性能指标

此外,掩码输入模型与主动学习模型均保持 92%-93% 的核心指标,其中掩码模型减少了急流漏检案例,主动学习模型则降低了假阳性率,可适配不同应用场景需求。

           

  • 研究总结

本研究构建了覆盖广、质量高的全美河流影像数据集 CIRRUS,填补了急流识别领域缺乏标准化影像数据库的空白。创新提出的 “河流分割 + 急流分类” 双模型架构,实现了从背景隔离到特征识别的端到端自动化处理,93%的急流分类准确率大幅超越传统人工识别效率。按水文单元划分数据子集的策略,有效规避了空间数据泄露,为同类遥感影像机器学习研究提供了严谨的实验设计参考。

未来可从三方面进一步拓展:一是扩大标注数据规模,补充窄支流、季节性河流等特殊场景数据,提升模型鲁棒性;二是优化模型融合策略,将 SAM2 分割掩码与急流分类模型深度结合,减少背景干扰导致的误判;三是拓展多维度应用,结合时序遥感数据实现河流动态变化监测,为流量估算、灾害预警、户外休闲规划等提供更全面的技术支撑。

CIRRUS 数据集及配套代码已公开,为全球水文遥感研究者提供了强大工具。随着深度学习与遥感技术的持续融合,未来河流生态监测将迈入更精准、高效、智能化的新阶段。

数据集下载链接:https://www.usgs.gov/data/compilation-images-rivers-reaches-across-united-states-cirrus

             

阅读英文原文:https://www.mdpi.com/2072-4292/18/2/375

           

  • Remote Sensing 期刊介绍

主编:Prasad S. Thenkabail, USGS Western Geographic Science Center (WGSC), USA

期刊范围涵盖遥感科学所有领域,从传感器的设计、验证和校准,到遥感在地球科学、环境生态、城市建筑等各方面的广泛应用。

2024 Impact Factor:4.1

2024 CiteScore:8.6

Time to First Decision:24.3 Days

Acceptance to Publication:2.6 Days

期刊主页:https://www.mdpi.com/journal/remotesensing

2026-01-20_banner 2.jpg



https://blog.sciencenet.cn/blog-3516770-1526379.html

上一篇:Earth:水足迹中蒸散部分的模型分析:以巴西塞拉高加地区为例的全局敏感性分析
下一篇:GeoHazards:应对山地流域泥沙挑战:现代可持续管理新框架
收藏 IP: 116.211.58.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-19 13:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部