|
引用本文
徐齐胜, 许可乐, 窦勇, 高彩丽, 乔鹏, 冯大为, 朱博青. 基于被动声呐音频信号的水中目标识别综述. 自动化学报, 2024, 50(4): 649−673 doi: 10.16383/j.aas.c230153
Xu Qi-Sheng, Xu Ke-Le, Dou Yong, Gao Cai-Li, Qiao Peng, Feng Da-Wei, Zhu Bo-Qing. A review of underwater target recognition based on passive sonar acoustic signals. Acta Automatica Sinica, 2024, 50(4): 649−673 doi: 10.16383/j.aas.c230153
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230153
关键词
被动声呐信号,水中目标自动识别,深度学习,有监督学习,自监督学习
摘要
基于被动声呐音频信号的水中目标识别是当前水下无人探测领域的重要技术难题. 本文从数据处理和识别方法两个层面系统阐述基于被动声呐信号进行水中目标识别的方法和流程. 在数据处理方面, 从基于被动声呐信号的水中目标识别基本流程、被动声呐音频信号分析的数理基础及其特征提取三个方面概述被动声呐信号处理的基本原理. 在识别方法层面, 全面分析基于机器学习算法的水中目标识别方法, 并聚焦以深度学习算法为核心的水中目标识别研究. 本文从有监督学习、无监督学习、自监督学习等多种学习范式对当前研究进展进行系统性的总结分析, 并从算法的标签数据需求、鲁棒性、可扩展性与适应性等多个维度分析这些方法的优缺点. 同时, 还总结该领域中较为广泛使用的公开数据集, 并分析公开数据集应具备的基本要素. 最后, 通过对水中目标识别过程的论述, 总结目前基于被动声呐音频信号的水中目标自动识别算法存在的困难与挑战, 并对该领域未来的发展方向进行展望.
文章导读
随着人类对海洋资源开发利用的不断深入以及海上安全问题的日益突出, 水声目标识别(Underwater acoustic target recognition, UATR)作为海洋环境监测的一项基础性任务, 成为近年来水声信号处理领域中的研究热点之一. 目前该研究内容已广泛应用于海底目标定位与识别[1]、海岸线监视[2]、海洋生物行为的计数和分类[3]、船只识别[4]以及潜艇、鱼雷的检测[5]等领域. 相比于电磁信号, 基于声学信号进行分析是水中目标识别更加行之有效的方法, 主要有以下三个原因: 一是声波在水中的传播速度较快且衰减较慢, 相比之下电磁波在水中传播速度慢且衰减迅速; 二是水中目标通常使用声波信号进行通信; 三是声波在不同水域环境中具有更好的适应性, 无论是海洋、湖泊还是河流等不同水体环境, 声波传播的特性相对稳定, 使得被动声呐能够适应不同的水下环境进行目标识别. 而电磁信号在不同水体环境中的传播特性存在较大差异, 需要进行针对性的调整和适配. 一般而言, 声波信号的采集可以通过主动声呐和被动声呐获取. 特别地, 被动声呐具有干扰性小、效率高、可同时接收来自多个方向的声波等优点, 近年来被广泛部署, 是当前水中目标识别的主要数据来源. 然而, 由于海洋环境的复杂多变, 水中目标的声呐信号会受到许多干扰, 如海洋背景噪声、多路径效应、信号衰减等, 从而导致可用于研究和分析的被动声呐信号往往数量较少, 这大大增加了水中目标识别的挑战性. 为有效预处理和分析被动声呐信号, 设计高通用性和泛化性的特征提取方法、提升水中目标识别的准确率和时效性、降低模型的训练成本和复杂度、构建质量良好的公开可用水声数据集, 都是基于被动声呐音频信号的水中目标识别任务所面临的关键问题.
一般而言, 水中目标大致包含水面目标和水下目标两个大类. 其中水面目标主要是各种大型舰船、小型船以及浮标等; 水下目标则主要是各类海洋生物、潜艇、鱼雷等. 水中目标识别旨在通过非接触的方式实现目标类别的判断[6], 一般包括声学特征提取并据此进行信号的识别两个阶段. 该过程通常涉及信号处理、模式识别和机器学习等相关知识, 根据信号的特征(如频率、振幅、持续时间和频谱特征)进行目标的识别. 传统上, 该任务主要依赖于专业的声呐操作员进行人工听音判别来实现水中目标的识别. 然而, 该方式易受操作员的情绪、所处环境、健康状态以及外界天气等多种因素的影响, 从而导致错误的判断. 此外, 人工听音判别效率低, 难以适应复杂多变的海洋环境和无法满足日益增长的监测需求. 近年来机器学习特别是深度学习算法在许多领域中表现出强大的学习能力和优异的自动识别能力, 激励了学者探索该方法在水中目标识别任务中的应用, 目前基于机器学习的水中目标识别方法逐渐成为该领域的研究热点[7].
随着机器学习在基于被动声呐音频信号的水中目标识别任务的研究不断深入, 众多成果不断涌现, 近年来也出现了一些综述性工作. 例如, 文献[8]从水声特征提取的角度分析不同声学特征的提取方式和物理特性, 简单介绍部分目标识别方法. 文献[9]则从方法层面对水中目标识别研究进行综述. 相比之下, 本文同时从声学特征提取和方法层面对已有方法进行总结. 此外, 文献[9]只从宏观上分析不同深度学习方法的性能差异, 而本文从精度、鲁棒性、扩展性等多个维度对比不同方法的一般性能差异. 文献[10]从方法层面将基于机器学习的水中目标识别划分为基于统计学的方法、基于深度学习的方法和基于迁移学习的方法, 并进行相应的综述. 本文与文献[10]的区别主要体现在以下两个方面: 在内容层面, 本文总结当前主流的公开可用水声数据集, 在此基础上指出一个质量良好的水声数据集应该具备的特点; 在方法层面, 本文对已有方法进行更加细致和全面的总结. 例如本文加入了近期发展起来的两类重要方法, 即基于Transformer和基于自监督学习的水中目标识别方法, 这两类方法是当下广为关注并具有较大研究潜力的研究方向. 总之, 上述综述文章大多从特征或方法的某一维度出发对水中目标识别进行综述, 没有包含最新的研究进展. 此外, 当前的综述文章中缺少对不同方法的性能对比分析. 本文根据当前的研究进展, 系统阐述基于被动声呐音频信号进行水中目标识别的原理和方法, 对该领域的研究现状、存在的问题以及未来的发展趋势进行系统性的分析与讨论. 本文聚焦梳理基于被动声呐音频信号的水中目标识别的基本原理、方法以及最新成果, 突出将机器学习应用于水中目标自动识别的不同策略, 分析在此过程中存在的关键问题与挑战, 在此基础上对该领域未来的发展趋势进行总结与分析. 具体来说, 本文将基于被动声呐音频信号的UATR方法分为7大类: 基于传统机器学习的方法, 基于卷积神经网络的方法, 基于时延神经网络的方法, 基于循环神经网络的方法, 基于Transformer的方法, 基于迁移学习的方法, 基于无监督学习与自监督学习的方法, 如图1所示. 此外, 本文还对该领域中较为广泛使用的公开数据集进行总结与分析.
图 1 基于机器学习的水声目标识别方法
本文内容安排如下: 第1节从数据处理角度论述被动声呐信号处理的基本原理, 其中包括基于被动声呐信号进行水中目标识别的基本流程、被动声呐信号分析的数理基础以及特征提取方法; 第2节和第3节则从识别方法层面全面梳理基于被动声呐音频信号的水中目标识别方法的发展脉络和最新成果, 总结基于被动声呐音频信号的水中目标识别任务所面临的主要挑战, 指出探索“自学习−高效性−跨模态融合”算法是解决技术瓶颈的有效手段; 第4节从现有公开可用的水声数据集角度论述, 指出一个质量良好的水声数据集应该具备的要素, 以便进一步促进该领域的发展; 第5节对全文内容进行总结, 从算法的精度、标签数据需求、可扩展性与实时性等多个维度, 论述水中目标自动识别需要重点研究的若干基础性问题和未来发展趋势.
图 2 基于声呐信号的水声目标识别基本原理
图 3 水声目标识别的基本流程
本文对基于被动声呐音频信号的水中目标识别的相关研究进行综述. 首先从数据的角度阐述了当前水中目标识别主要使用的数据类型为被动声呐音频信号, 并对音频信号处理中所涉及的关键技术进行了概述, 包括采用被动声呐音频信号进行水中目标识别的基本原理、被动声呐音频信号分析的数理基础以及系统介绍了相关研究中所使用的音频特征提取方法, 为后续介绍机器学习方法在水中目标识别任务中的应用提供了必要的背景知识. 然后分别从传统机器学习和深度学习的角度全面分析了水中目标识别任务的相关进展, 发现由于海洋环境的复杂性和各种声音隐身技术的应用, 基于深度学习的水中目标识别方法逐渐成为主流研究方法. 按照深度学习的模型结构将这些方法分为: 1)基于卷积神经网络的方法; 2)基于时延神经网络的方法; 3)基于循环神经网络的方法; 4)基于Transformer的方法; 5)基于迁移学习的方法; 6)基于无监督和自监督学习的方法. 对相关方法进行上述分类, 可以确保在涵盖所有主流方法的同时又能实现每个类别之间不会存在交集的目的, 分类脉络更清晰. 图13展示了这些方法在水中目标识别任务上的性能对比, 从图中可以发现, 基于自监督学习的方法在性能上足以媲美有监督学习的方法, 并且由于该方法对标签数据需求小、泛化性和可扩展性高等优势, 近年来自监督学习方法逐渐成为基于被动声呐音频信号的水中目标识别任务的研究热点.
然而需要注意的是, 虽然近年来深度学习方法在很大程度上提高了水中目标识别的精度和速度, 但距离真正实时、鲁棒、精准和可持续学习的识别系统, 仍存在较大的提升空间. 主要表现在:
1) 公开可获得的被动声呐数据集及其标注的显著稀缺性. 由于海洋环境的复杂性、处理与标注数据集的高昂成本以及潜在的国防敏感信息等因素[119], 使得该类数据集通常不可公开获取. 这使得这类研究在很大程度上失去了对比意义, 因为如果没有一个共同的数据集, 对解决方案进行比较和基准测试难以进行.
2) 噪声标签的普遍性. 由于被动声呐数据的标注成本高昂, 使用廉价的数据收集方式(比如在线查询和众包等)成为可行的替代方案. 然而这些方式会引入大量的噪声标签, 甚至是专家标注的数据集中也可能出现噪声标签, 深度学习由于其强大的拟合能力, 很容易受到这些噪声标签的干扰. 因此, 在将数据用于模型训练之前, 进行噪声的清洗是一项十分重要的工作[120-121].
3) 具有判别性和泛化性的水中目标通用音频特征提取方法仍处于探索中. 目前许多研究所采用的水中目标音频特征往往是基于手工制作、特征提取器进行提取的, 然而这类参数固定的特征提取器难以自动适应数据的特点. 其次, 被动声呐数据受采集时间、季节、天气、地理区域、传感器类型、海洋深度等影响, 往往需要专业的领域知识和专家经验来选取合适的音频特征, 以适应相应的任务场景. 此外, 虽然有些研究开始采用深度学习方法自动提取音频特征, 但所设计的提取策略也仅在私人数据集或单一数据集上取得相对不错的效果, 在其他数据集上的性能仍有待验证. 因此, 探索具有判别性和泛化性的通用音频特征提取方法是一项十分有意义的工作.
4) 模型持续学习能力的探索. 现有研究主要聚焦于设计合适的深度学习策略以提升模型的识别能力, 然而这些方法在模型训练结束后, 对知识的学习过程也随之结束. 此外, 水中目标所处的海洋环境是动态变化的, 这种参数固定的模型难以适应这样的任务场景. 因此, 探讨模型的持续学习问题是一个非常具有现实意义的问题.
此外, 在第4节, 总结了文献中常用的一些被动声呐音频公开数据集, 并指出一个良好的数据集应该具备的特点, 为后续搭建被动声呐水声数据集提供了指导性意见. 同时, 本文认为未来的工作应该明确所使用数据集的获取条件和限制, 同时最好能在公开数据集上进一步测试模型的性能, 以便更好地进行性能对比.
总的来说, 高精准、可扩展性、鲁棒性、实时性和可持续学习性仍然是未来基于被动声呐音频信号的水中目标识别任务的重要挑战. 同时, 如何将已有的成果应用于生活实际、实现模型压缩和跨平台部署等也是亟需解决的问题.
作者简介
徐齐胜
国防科技大学计算机学院硕士研究生. 2021年获得武汉大学学士学位. 主要研究方向为音频信号处理, 并行计算. E-mail: qishengxu@nudt.edu.cn
许可乐
国防科技大学计算机学院副教授. 2017年获得法国巴黎六大博士学位. 主要研究方向为音频信号处理, 机器学习和智能软件系统. 本文通信作者. E-mail: xukelele@163.com
窦勇
国防科技大学并行与分布处理国防科技重点实验室教授. 1995年获得国防科技大学博士学位. 主要研究方向为高性能计算, 智能计算, 机器学习和深度学习. E-mail: yongdou@nudt.edu.cn
高彩丽
国防科技大学计算机学院硕士研究生. 2021年获得南昌大学学士学位. 主要研究方向为人脸伪造检测, 并行优化. E-mail: gaocl@nudt.edu.cn
乔鹏
国防科技大学并行与分布处理国防科技重点实验室助理研究员. 2018年获得国防科技大学博士学位. 主要研究方向为高性能计算, 图像恢复和深度强化学习. E-mail: pengqiao@nudt.edu.cn
冯大为
国防科技大学计算机学院副教授. 2014年获得法国巴黎第十一大学博士学位. 主要研究方向为分布计算与智能软件系统. E-mail: dafeng@nudt.edu.cn
朱博青
国防科技大学博士研究生. 2019年获得国防科技大学硕士学位. 主要研究方向为多模态机器学习, 持续学习和计算声学. E-mail: zhuboq@gmail.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 17:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社