IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

《自动化学报》2022年48卷2期目录分享

已有 4667 次阅读 2022-2-22 10:37 |系统分类:博客资讯

《自动化学报》2022年48卷2期电子杂志链接:

https://book.yunzhan365.com/iths/ivbn/mobile/index.html


《自动化学报》2022年48卷2期网刊链接:

http://www.aas.net.cn/cn/article/2022/2


当期目录


综  述


01

机器人运动轨迹的模仿学习综述

黄艳龙, 徐德, 谭民


作为机器人技能学习中的一个重要分支, 模仿学习近年来在机器人系统中得到了广泛的应用. 模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中, 其思路是先从少量示教样本中提取相应的运动特征, 然后将该特征泛化到新的情形. 本文针对机器人运动轨迹的模仿学习进行综述. 首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题; 其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍; 然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题; 最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向.


黄艳龙, 徐德, 谭民. 机器人运动轨迹的模仿学习综述. 自动化学报, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033

Huang Yan-Long, Xu De, Tan Min. On imitation learning of robot movement trajectories: A survey. Acta Automatica Sinica, 2022, 48(2): 315−334 doi: 10.16383/j.aas.c210033

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210033?viewType=HTML


机器人运动技能的模仿学习(Imitation learning, IL), 又称示教学习(Learning from demonstration, LfD)或示教编程(Programming by demonstration, PbD), 是指机器人通过学习示教样本来获得运动技能的一类算法, 其学习过程一般为从单个或少量示教轨迹中提取运动特征, 随后将该特征泛化到新的情形, 从而使得机器人具有较好的自适应性.


自1999年Schaal提出机器人模仿学习的概念之后, 模仿学习作为机器人技能学习(Robot learning)领域中的一个重要分支近年来取得了许多重要的进展. 例如, Ijspeert等提出了动态运动基元(Dynamical movement primitives, DMP), 其仅需学习单条示教轨迹即可实现点到点和周期运动的泛化. 该方法利用弹簧阻尼模型和轨迹调整项, 可以在模仿示教技能时确保泛化轨迹收敛到目标点. Khansari-Zadeh 等提出了动态系统稳定估计(Stable estimator of dynamical systems, SEDS), 该方法利用非线性求解器对多样本的高斯混合模型(Gaussian mixture model, GMM)的参数进行优化, 以使高斯混合回归(Gaussian mixture regression, GMR)对应的自治系统(即应用GMR预测状态变量对应的一阶微分, 如依据位置预测速度)满足稳定性要求. Paraschos等提出了基于高斯分布的概率运动基元(Probabilistic movement primitives, ProMP), 其应用最大似然估计对轨迹参数的概率分布进行估计, 之后依据高斯条件概率的运算对轨迹进行泛化调整. Calinon等提出了任务参数化高斯混合模型(Task-parameterized GMM, TP-GMM), 该方法将训练轨迹投影到与任务相关的局部坐标系中并对变换后的相对运动轨迹进行概率建模, 克服了GMM在机器人任务空间中泛化的局限性. Huang等提出了核化运动基元(Kernelized movement primitives, KMP), 其通过对参数化轨迹和样本轨迹之间的KL散度(Kullback-Leibler divergence)进行最小化, 以及引入核技巧(Kernel trick), 获得了非参的(Non-parametric)技能学习模型. 由于仅需要极少的样本即可实现对人类运动技能的迁移, 且无需其他先验知识或数据, 模仿学习被广泛应用于诸多领域, 如娱乐、医疗、护理和农业机器人、仿人和外骨骼机器人以及人机交互等.


在上述运动轨迹的模仿学习之外, 模仿学习还包括其他的一些研究方向, 如行为复现(Behaviour cloning, BC)、直接策略学习(Direct policy learning, DPL)和逆强化学习(Inverse reinforcement learning, IRL). BC和DPL在实质上可以理解为监督学习, 即学习示教样本中输入和输出的函数关系. 两者的区别是DPL在BC的基础上引入人类的交互反馈, 从而改进BC在长期规划中的不足, 特别是当训练和测试状态的概率分布存在显著差异的情形. IRL假设训练样本中隐含的策略(Policy)在某种未知奖励函数(Reward function)下是最优的, 进而对奖励函数的参数进行优化, 最终在最佳奖励函数下应用强化学习(Reinforcement learning, RL) 可求得该隐含的最优策略.


由于篇幅的限制, 本文仅针对机器人运动轨迹的模仿学习进行综述和讨论. 需要指出的是本文所讨论的模仿学习算法和BC、DPL、IRL存在着一定的差异. BC、DPL和IRL主要侧重解决马尔科夫决策过程(Markov decision process, MDP)中的决策问题, 其中一个主要的特点是智能体(Agent)与环境存在交互且任意时刻的交互都会影响MDP下一时刻的状态, 这一过程常被描述为状态转换(State transition). 轨迹的模仿学习侧重对运动轨迹的规划, 其输入通常为时间或其他无环境交互影响的状态. 另外, 本文中涉及的一些算法如GMR和高斯过程(Gaussian process, GP)等可以划归到BC之中, 但考虑到这些方法的应用对象也包括机器人的轨迹学习, 因此我们仍将对其进行分析讨论.


02

基于EEG的癫痫自动检测: 综述与展望

彭睿旻, 江军, 匡光涛, 杜浩, 伍冬睿, 邵剑波


癫痫是一种由脑部神经元阵发性异常超同步电活动导致的慢性非传染性疾病, 也是全球最常见的神经系统疾病之一. 基于EEG的癫痫自动检测是指通过机器学习、分布检验、相关性分析和时频分析等数据分析方法, 对癫痫发作阶段的EEG信号进行自动识别的研究问题, 能够为癫痫诊疗与评估提供客观参考依据, 从而减轻医生工作负担并提高治疗效率, 因此具有十分重要的理论意义与实际应用价值. 本文详细介绍基于EEG的癫痫自动识别整体框架, 以及对应于各个步骤所涉及的典型方法. 针对核心模块, 即特征提取与分类器选择, 进行方法总结与理论解释. 最后, 对癫痫自动检测研究领域的未来研究方向进行展望.


彭睿旻, 江军, 匡光涛, 杜浩, 伍冬睿, 邵剑波. 基于EEG的癫痫自动检测: 综述与展望. 自动化学报, 2022, 48(2): 335−350  doi: 10.16383/j.aas.c200745

Peng Rui-Min, Jiang Jun, Kuang Guang-Tao, Du Hao, Wu Dong-Rui, Shao Jian-Bo. EEG-based automatic epilepsy detection: Review and outlook. Acta Automatica Sinica, 2022, 48(2): 335−350  doi: 10.16383/j.aas.c200745

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200745?viewType=HTML


癫痫 (Epilepsy) 是影响全年龄人群的一种由脑部神经元阵发性异常超同步电活动导致的慢性非传染性疾病, 也是全球最常见的神经系统疾病之一. 由于大脑异常电活动的起始位置和传播方式存在差异, 癫痫临床表现呈现多样化、复杂化的特点. 反复癫痫发作会对患者的精神与认知功能造成持续性的负面影响, 甚至危及生命. 因此, 癫痫诊断和治疗的研究具有非常重要的临床意义.


1964年, 国际抗癫痫联盟首次提出了癫痫发作分类方案, 并于1969年对其增订. 该方案指出, 根据发作时癫痫患者的脑电图表现, 可将癫痫疾病的发作定义成五类亚型, 并明确了发作状态 (Ictal)、发作间状态 (Inter-ictal) 的头皮脑电图特征和患者的临床表现具有同等诊断意义.


脑电图 (Electroenc ephalo gram, EEG) 是放置于头皮特定位置的电极采集获得的大脑内同步神经元活动产生的微伏级电信号. EEG作为最常用、最经济的非侵入式脑电波检测手段, 已有70余年的研究历史, 是癫痫相关疾病诊断最有效的方法, 例如对癫痫发病进行识别、预测和病灶定位等.


为了克服传统诊断手段的局限性, 提高医疗效率, 基于EEG的癫痫自动检测已成为行业研究热点. 癫痫自动检测可细分为两个任务: 癫痫发作事件检测 (Seizure event detection, SED) 和癫痫发作检测 (Seizure onset detection, SOD). SED目的是从多个EEG中尽可能准确地识别癫痫发作信号, SOD目的是在连续脑电监测过程中, 当患者癫痫发作时, 系统能以尽可能短的延时 (Latency) 识别发作的开始, 并描述持续时间.


临床上脑电的识读与分析主要依赖医疗工作者的视觉检测与手工标注, 这也是目前基于EEG的癫痫检测金标准. 但是癫痫的发作时间和时长具有不确定性, 从海量的脑电数据中读取发病期数据从而分析病情工作繁琐, 且极大依赖检查者主观判断. 因此, 为了克服传统诊断手段的局限性、提高医疗效率, 从1982年Gotman提出基于EEG的癫痫自动识别方法起, 已积累了大量SED相关研究.


同时, 在癫痫治疗过程中, 对抗癫痫药物治疗无效的患者需要采取手术治疗, 需要准确识别手术切除的致痫灶. 致痫灶分为始发区、激惹灶、致痫病变区与功能缺失区, 其中始发区是最有效的标志区, 被看作是致痫灶的替代指标. 临床上可通过在癫痫起始发作时, 使用不同类型的示踪剂来判断始发区位置. SOD也因此具有重要的临床意义. Grewal和Gotman设计了一种可根据用户自身数据调节参数的癫痫发作监测系统, 使得系统的敏感度达到89.7 %, 平均时延17.1 s. Kharbouch等对用户敏感方法进行了特征提取的改进并使得系统在80 % 的被试数据上敏感度达到100 %, 时延控制在3.25 ~ 18.5 s. Sorensen等则提出了一种基于匹配追踪算法的SOD方法使得分类敏感度达到78 % ~100 %, 延时控制在5 ~ 18 s. 近年来, 高采样率设备逐渐普及, 研究者们发现80Hz80Hz以上的癫痫脑电中存在的高频振荡节律 (High frequency oscillation) 也可作为一种新的始发区指示标志.


无论SED还是SOD, 癫痫自动检测的核心是对癫痫波的检测. 1972年, Stevens等首次尝试从长时程EEG信号中提取痫样棘波. 此后, 根据痫样棘波的特性, 人们提出了基于形态学、信号相关性、子带分解、特征工程等的棘波检测算法, 对癫痫脑电信号进行自动检测. 近年来, 随着人工智能的不断发展, 特别是机器学习与数据挖掘领域成果的不断积累, 基于机器学习的癫痫自动检测方案大量涌现. 这类能够从数据中学习分类规则, 并能随着数据的扩充而提高性能的自动化算法, 是极具潜力的癫痫自动检测解决方案. 该研究课题也因其理论背景和应用价值, 引起了来自生物、医学、认知和计算机科学等众多领域研究者的广泛兴趣.


癫痫自动检测的核心问题可以归纳为特征提取和分类器设计两个子问题. 其中, 深度学习通过神经网络将特征提取与分类器设计融为一体. 本文将从特征提取和分类器选择的角度比较癫痫自动检测中各个方法的优缺点, 并结合该领域目前所面临的挑战, 对未来研究方向进行展望, 以期为该领域研究提供有益参考.


本文的主要贡献如下:


1) 对基于EEG的癫痫自动检测算法流程进行了详细阐述, 总结了各个模块中的典型方法和研究进展, 针对核心研究问题给出了详细的说明.


2) 全面介绍了时域、频域、时频域和非线性分析等四类常见特征.


3) 对癫痫检测中的分类模型做了详细归纳整理.


4) 对癫痫自动检测领域未来研究方向给出了建议与展望.



03

解耦表征学习综述

文载道, 王佳蕊, 王小旭, 潘泉


在大数据时代下, 以高效自主隐式特征提取能力闻名的深度学习引发了新一代人工智能的热潮, 然而其背后黑箱不可解释的“捷径学习”现象成为制约其进一步发展的关键性瓶颈问题. 解耦表征学习通过探索大数据内部蕴含的物理机制和逻辑关系复杂性, 从数据生成的角度解耦数据内部多层次、多尺度的潜在生成因子, 促使深度网络模型学会像人类一样对数据进行自主智能感知, 逐渐成为新一代基于复杂性的可解释深度学习领域内重要研究方向, 具有重大的理论意义和应用价值. 本文系统地综述了解耦表征学习的研究进展, 对当前解耦表征学习中的关键技术及典型方法进行了分类阐述, 分析并汇总了现有各类算法的适用场景并对此进行了可视化实验性能展示, 最后指明了解耦表征学习今后的发展趋势以及未来值得研究的方向.


文载道, 王佳蕊, 王小旭, 潘泉. 解耦表征学习综述. 自动化学报, 2022, 48(2): 351−374 doi: 10.16383/j.aas.c210096

Wen Zai-Dao, Wang Jia-Rui, Wang Xiao-Xu, Pan Quan. A review of disentangled representation learning. Acta Automatica Sinica, 2022, 48(2): 351−374 doi: 10.16383/j.aas.c210096

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210096?viewType=HTML


自动化系统, 大到复杂的自动驾驶、飞行控制等运动系统, 小到人脸图像识别、行人流量检测、视频跟踪监控等图像/视频解译系统, 均在国家重大生产、生活与管理进程中起到了不可替代的作用. 随着人工智能技术最近几年的迅速发展, 采集数据的自动、精准智能感知对整个系统的智能辨识与控制预测能力至关重要, 备受研究者的广泛关注.


人类作为目前最为智能的生物系统, 能够通过各类生物传感器(眼睛、鼻子、耳朵等)接收周围环境的视觉、嗅觉、听觉等数据信号, 并将这些数据送入大脑进行融合处理, 挖掘出数据内部隐含的各类有效信息, 通过持续性学习将其汇总为简单的语义属性, 形成概念, 建立起抽象的逻辑关联规则, 最终结合自身具备的常识形成完整知识体系, 实现对各类复杂环境的智能化感知. 例如, 将图1 (a)中从不同视角下拍摄得到的三幅不同交通图像作为视觉数据输入到人眼中, 人类便能够自主完成如下的层次化数据智能感知:


1) 检测并识别出图像中不同姿态、不同风格的物体, 并具有抗遮挡能力, 能够毫不费力地想象还原出被遮挡物体的全貌, 如图1 (b)所示;


2) 能够全面有效剖析出每类物体的各个内在属性并对该类物体进行全方位想象关联. 例如对于图1 (c)中的车辆而言, 假设将其内在属性认知为车型、角度两类, 人类便可按照这两类属性对已有图像进行相应的分组关联, 并能够通过组合不同的属性值想象出并未见过的车辆图像. 如此, 面对存在车辆的各类未知新场景, 人类能够不受大差异性视角或新型车辆的影响, 检测并识别出各类不同的车辆, 并能够精确推理出每辆车的内在属性值;


3) 能够结合一些常识推理(例如两辆车相对位置过近或人躺在车辆行驶正中间的马路上时往往代表着交通事故的发生)构建出代表不同对象间交互关系的树状知识体系图, 如图1 (d)所示. 利用该知识体系图, 人类能够通过对知识的改造重组想象泛化出各类符合因果逻辑关系的新场景, 例如图1 (e)中道路拥堵状态下的交通事故新场景. 该能力有助于人类对各类复杂场景进行因果知识关系梳理与认知更新, 从而轻松完成类似智能知识问答等复杂图像理解任务.


为了使现有系统真正实现对数据的自主智能感知, 借鉴人类这种层次化数据智能感知思想, 构建从数据、信息、语义、规则再到知识的多尺度、多层次、具有可解释性的数据表征至关重要.


传统模式识别主要依据特定领域的专家经验知识进行显式的特征设计与推理, 从而完成相应任务. 随着误差反向传播(Back propagation, BP)人工神经网络的提出, 将传统专家知识驱动的显式特征提取方法替换为复杂数据驱动的神经网络隐式特征提取方法逐渐引起了学术界的关注. 尤其在Hinton等提出以深度神经网络为代表的深度学习技术后, 相关以深度学习为主的隐式特征提取理论开始蓬勃发展, 逐渐在语音识别、自然语言处理、人脸识别、目标检测等领域取得突破性进展. 截至目前, 深度学习技术已被广泛应用于多种复杂非线性系统的预测任务中. 这类以提升特定预测任务性能指标为目的的判别式深度学习算法通过堆叠多层神经网络来构建从原始的输入数据到最终预测目标(如物体类别、位置、姿态等)的端到端非线性映射函数, 使机器能够从数据中自适应地进行学习, 有效缓解传统模式识别中手工设计选择显式特征的繁琐低效问题.


然而现有以有监督深度网络为代表的端到端黑箱判别式学习方法是一种捷径学习(Shortcut learning)策略, 即网络学习得到的判别性隐式抽象特征往往没有朝着人类所期望的方向进行泛化. 如图2所示, 对于图2 (a)中所显示的人类所具有的泛化能力并未被网络所学到. 与此相反, 在图2 (b)中, 网络学习得到的泛化能力又不能为人类所理解. 发生这种现象的本质原因在于现有判别式网络做出决策的评判标准仅仅为了提高训练样本数据的预测准确性. 在这种评判标准下, 网络会自主选择一条最容易、最精准地对训练集拟合的方向进行学习, 而这一方向并不一定是人类所期望网络学习的方向. 如图3所示, 网络学到得是所有决策空间中在训练集上展现出良好性能的一部分决策, 在这一部分决策内, 仅有一小部分决策能够泛化到服从独立同分布特性(Independent and identically distributed, i.i.d) 的测试集上, 即图3中的蓝色区域. 然而人类真正期望网络做出的决策不仅能够泛化到i.i.d测试集上, 而且能够泛化到其余该分布以外(Out-of-distribution, o.o.d)的测试集中, 即图3中的红色区域部分. 现有大多数判别式网络仅旨在寻找蓝色区域内适应于i.i.d测试集的决策空间, 难以自主学到同时适应于o.o.d数据集的红色区域决策空间. 例如图2 (a)中, 当网络学习判断图像类别是否为猫时, 很容易聚焦于图像的纹理特征, 而忽略整体的形状特征, 这使得一幅具有猫的形状、大象纹理的图像会被网络判定为大象而不是猫; 又如图2 (b)中, 网络对于一把吉他类别的判断可能仅在于评判其是否具有弯曲的纹理与线段等, 这使得该网络很容易将人类认为明显不是吉他的图像判定为吉他. 因此现有深度网络经常因为稳定性差、可解释性弱、易受欺骗攻击等饱受诟病.


为了缓解上述问题, 对网络学习方向施加一定的归纳偏好约束, 促使网络挖掘数据中所蕴含的常识推理与因果逻辑关系[28-31], 将有助于网络像人类一样学习从数据到信息到语义到规则再到知识的多尺度、多层次化数据表征. 基于此, 结合认知科学原理和视觉信息处理机制的解耦表征学习逐渐成为深度学习领域重要的研究方向[32-36]. 解耦表征学习旨在按照人类能够理解的方式从真实数据中对具有明确物理含义的生成因子(如类别、位置、外观、纹理等)进行解耦, 并给出其所对应的独立潜在表示, 引起国内外大量学者的广泛关注.


鉴于解耦表征学习深刻的理论意义, 所蕴含的应用价值以及可观的发展潜力, 本文对解耦表征学习的研究进展进行了系统性的综述, 为进一步深入研究解耦表征学习机制、开发解耦表征学习应用潜力确立了良好的基础. 文中第1节对解耦表征学习基本概念、发展历史等进行了概述; 第2节着重介绍了从非结构化表征先验正则角度分析解耦表征学习最初的几种典型解决思路; 第3节则从结构化模型先验归纳偏好的角度挖掘模型架构设计对于现有解耦表征学习的启发; 第4节结合实际数据中所蕴含的物理知识对现有解耦表征学习研究进行进一步深入探索; 第5节则对前三节的模型算法进行对比分析论证. 最后, 在第6节指出了解耦表征学习未来的可能发展方向并对全文进行总结.



04

从视频到语言: 视频标题生成与描述研究综述

汤鹏杰, 王瀚漓


视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码−解码” 架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.


汤鹏杰, 王瀚漓. 从视频到语言: 视频标题生成与描述研究综述. 自动化学报, 2022, 48(2): 375−397 doi: 10.16383/j.aas.c200662

Tang Peng-Jie, Wang Han-Li. From video to language: Survey of video captioning and description. Acta Automatica Sinica, 2022, 48(2): 375−397 doi: 10.16383/j.aas.c200662

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200662?viewType=HTML


视频标题生成与描述任务是对给定的视频进行特征抽象, 并将其转换为自然语言, 对视觉内容进行结构化总结与重新表达. 它与目前流行的图像描述任务一样, 同属于计算机视觉高层语义理解范畴, 但鉴于视频数据的时空特性与语义的多样性、复杂性, 其比图像描述更具挑战性.


如图1所示, 它不仅需要检测出空间域中的物体、场景、人物等静态要素, 还要能够识别时间域上的动作及事件, 反映各视觉语义对象的时空变化, 最后选择合适的词汇及句式结构将其组合在一起, 形成符合人们表达习惯的描述语句. 该任务对于自动解说、导航辅助、智能人机环境开发等领域应用前景广阔, 在推动旅游、教育及计算机学科本身发展等方面意义巨大. 但由于该任务涉及计算机视觉、自然语言处理, 甚至社会心理学等学科, 数据处理过程较为复杂, 具有很大的挑战性.


视频标题生成与描述研究历史较为悠久. 在其发展早期, 人们主要借助于SIFT特征(Scale-invariant feature transform, SIFT)、方向梯度直方图特征(Histogram of oriented gradient, HOG)等手工特征, 采用统计的方式对视频内容进行抽象, 提取视频中的语义特征, 然后运用机器学习、分类/识别、检索、检测等技术获取视觉语义对象, 并将其按照预定模板或规则填入相应位置, 组成可读的描述句子. 后来, 人们借鉴机器翻译的流程, 设计出能够生成句式更为灵活、用词更为丰富的“编码−解码” 框架结构, 提升了生成句子质量. 但受限于手工特征的表达能力, 其生成的句子在准确性和语义丰富程度等方面与人工表达仍有较大差距, 难以满足人们的需求. 随着深度学习技术的发展, 研究人员使用大规模训练数据对深度卷积神经网络(Deep convolutional neural networks, DCNN)进行优化, 并将其应用于视频特征提取. 深度特征更加抽象, 表达能力更强, 将其与循环神经网络(Recurrent neural networks, RNN)进行结合, 使得生成的句子中词汇更加准确、语义更为丰富. 目前, CNN-RNN框架已成为视觉描述任务的基础架构. 在此基础上, 研究人员结合三维卷积神经网络(3D CNN)、门限循环单元(Gated recurrent unit, GRU)、注意力机制、视觉概念/属性机制等, 设计了多种更为复杂的模型与算法, 进一步改善了视频标题与描述的生成质量.


除对简单视频进行高度总结与抽象, 为其生成简单描述之外, 人们也在寻求对更为复杂的视频进行精细化表达, 或以事件/场景变化为依据, 对其中的视觉语义片段进行更为细致的描述, 或者提取整个视频的逻辑语义, 将各片段描述组合为具有一定逻辑结构的描述语段等. 但由于视频数据的复杂性, 各视觉语义对象本身的变化、各对象之间的逻辑关联及其交互等仍存在建模困难、挖掘与利用不充分等弊端. 同时, 将其映射为更为抽象的词汇表达与逻辑语段也在准确性、连贯性及语义性等方面存在较大挑战, 生成的描述难以应用在实际场景中. 此外, 在复杂视频的情感挖掘与个性化表达方面, 目前尚无较为有效的方法与模型, 生成的描述缺乏生动性与吸引力, 且难以对隐含在视频内部的潜在语义及可能的外延信息进行推理显化与表述, 视觉信息与语言之间的语义鸿沟仍然较为明显.


目前已有部分工作对视频描述任务进行梳理与总结, 如Aafaq等总结了当前视频描述的主流方法、数据集和评价指标, 但他们侧重于从学习策略(如序列学习、强化学习等)上对各模型进行归类分析. Li等则从更大的视角出发, 系统总结了视觉(包括图像和视频)到语言的建模范式, 并从视觉特征编码方式的层面上对各视频描述主流工作进行了介绍. 本文参考了他们的思路, 但为了更加详细而清晰地呈现视频标题与描述生成的研究脉络, 首先回顾了视频描述研究的发展历史, 对其中典型的算法和模型进行了分析和总结. 然后对目前流行的方法进行了梳理, 尤其是基于深度网络的模型框架, 以视频特征编码方式为依据, 按照不同的视觉特征提取与输入方式, 将各类模型分别归类到基于视觉均值/最大值特征的方法、基于RNN网络序列建模的方法、基于3D卷积网络的方法, 以及基于混合特征编码的方法. 在每类方法中, 首先对视频简单描述模型进行了举例与概括, 然后对视频密集描述、段落描述等精细化表达模型做了分析与总结. 此外, 还介绍了视频描述任务的各类常用验证数据集及其评价指标体系, 列举了部分典型模型的性能表现, 并对结果进行了对比分析. 最后对视频描述任务面临的问题及可能研究方向进行了阐述与说明.



论  文


05

基于混合变分自编码器回归模型的软测量建模方法

崔琳琳, 沈冰冰, 葛志强


近年来, 变分自编码器(Variational auto-encoder, VAE)模型由于在概率数据描述和特征提取能力等方面的优越性, 受到了学术界和工业界的广泛关注, 并被引入到工业过程监测、诊断和软测量建模等应用中. 然而, 传统基于VAE的软测量方法使用高斯分布作为潜在变量的分布, 限制了其对复杂工业过程数据, 尤其是多模态数据的建模能力. 为了解决这一问题, 本论文提出了一种混合变分自编码器回归模型(Mixture variational autoencoder regression, MVAER), 并将其应用于复杂多模态工业过程的软测量建模. 具体来说, 该方法采用高斯混合模型来描述VAE的潜在变量分布, 通过非线性映射将复杂多模态数据映射到潜在空间, 学习各模态下的潜在变量, 获取原始数据的有效特征表示. 同时, 建立潜在特征表示与关键质量变量之间的回归模型, 实现软测量应用. 通过一个数值例子和一个实际工业案例, 对所提模型的性能进行了评估, 验证了该模型的有效性和优越性.


崔琳琳, 沈冰冰, 葛志强. 基于混合变分自编码器回归模型的软测量建模方法. 自动化学报, 2022, 48(2): 398−407 doi: 10.16383/j.aas.c210035

Cui Lin-Lin, Shen Bing-Bing, Ge Zhi-Qiang. A mixture variational autoencoder regression model for soft sensor application. Acta Automatica Sinica, 2022, 48(2): 398−407 doi: 10.16383/j.aas.c210035

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210035?viewType=HTML



在实际工业生产过程中, 需要对一些关键的质量变量进行实时测量, 如产品浓度、过程气体含量、催化剂活性和熔体指数等, 这对实现有效的过程控制和提高产品质量具有重要意义[1-5]. 然而, 由于极端的测量环境、昂贵的仪器成本、大的分析测量延迟等因素, 关键质量变量的物理测量难以实现[6-8]. 因此, 软测量技术应运而生. 软测量是一种虚拟传感器技术, 通过构建数学模型, 以一组容易测量的相关过程变量为输入, 以过程关键质量变量为输出, 来快速准确地估计这些难以直接测量的质量变量[9-11]. 一般来说, 软测量方法可大致分为两种, 模型驱动的软测量和数据驱动的软测量[12-13]. 与前者相比, 数据驱动的软测量方法不需要精准的机理模型和大量的过程专家知识, 更加具有灵活性和实用性. 此外, 随着分布式控制系统(Distributed control systems, DCSs)在现代工业过程中的广泛使用, 收集到的数据也日益增多, 为数据驱动建模方法提供了丰富的数据保证[14]. 因此, 数据驱动的软测量方法受到了越来越多的关注. 经典的基于数据驱动的软测量建模方法有主成分回归分析(Principal component regression, PCR)[15]、偏最小二乘法(Partial least squares, PLS)[16]、支持向量机(Support vector machine, SVM)[17]和人工神经网络(Artificial neural-network techniques, ANN)[18]等.


近年来, 深度学习作为一种新兴技术, 在图像处理、计算机视觉、自然语言处理等应用领域都取得了很大的进展. 与传统的浅层方法相比, 深度学习方法具有更深的网络结构, 它能够通过多层非线性映射, 从数据中提取更深层的抽象特征, 具有强大的数据建模能力. 因此, 面对越来越复杂的大规模现代工业过程, 深度学习具有不可替代的优势, 已经被应用到了软测量领域当中[19]. 例如, Yao和Ge提出了一种基于分层极限学习机的半监督深度学习软测量模型[20]. Yuan等开发出一种质量相关自动编码器, 用于提取深层次的输出相关特征[21]. Zhang和Ge基于门控循环单元和编码解码网络, 设计了一种深度可迁移动态特征提取器, 并应用于软测量[22]. Zheng等将集成策略、深度信念网络和核学习集成到软测量框架中, 建立了集成深度核回归模型, 并扩展到半监督形式[23]. 然而, 由于过程的随机扰动等原因, 几乎所有的过程数据都会受到随机噪声的污染, 从本质上来说, 过程变量都属于随机变量[14, 24-25]. 最近, Kingma和Welling提出了变分自编码器[26], 一种深度生成模型, 它结合了深度学习和贝叶斯变分推断. 作为一种以深层神经网络为结构的概率框架模型, VAE既具有深度学习的非线性特征提取能力, 又能像概率模型那样对过程不确定性和数据噪声进行建模. 基于这些优点, VAE已经被引入到工业过程中, 并逐渐被用于过程监测和软测量建模等应用场景[27-31].


尽管目前VAE在软测量应用中取得了一些进展, 但是传统的VAE通常假设其潜在变量分布服从高斯分布, 因此模型学习到的特征表示只能是单峰形式, 难以充分发挥潜在空间编码的能力和灵活性. 这在很大程度上限制了VAE对复杂特性过程数据的描述, 如工业领域广泛存在的多模态数据, VAE的建模性能很难得到有效的保障. 在实际工业过程中, 由于原料比例、产品需求、制造策略等因素的变化, 经常会发生操作条件的转变, 即工况发生变化, 从而使过程数据呈现典型的多模态特性[32-34]. 近年来, 学者们提出了一些VAE变体模型, 通过使用复杂的先验等手段来促进编码的灵活性, 但他们的目标大多是进行无监督聚类[35-37]. 到目前为止, 还没有VAE在多模态工业过程软测量应用中的相关研究报导. 基于以上讨论, 本文结合高斯混合模型的思想, 基于VAE框架提出一种混合变分自编码器回归(MVAER)模型, 用于解决多模态过程的质量预测问题. 该方法采用高斯混合模型来描述VAE的潜在空间变量分布, 分别对应工业过程中的多个模态. 通过非线性映射将复杂多模态数据映射到潜在空间, 学习各模态下的潜在变量, 获取原始数据的有效特征表示. 同时, 建立潜在特征表示与关键质量变量之间的回归模型, 实现软测量应用. 通过一个数值算例和一个实际工业案例, 验证了所提方法的有效性和可行性.


本文的其余部分组织如下. 在第1节中, 简要回顾了VAE模型. 在第2节中, 介绍了所提出的MVAER模型的主要思想和详细的推导过程, 并介绍了基于MVAER的软测量建模与应用方法. 在第3节中, 通过两个案例对MVAER进行了性能评估. 最后, 在第4节中得出本论文的结论.



06

基于时空共现模式的视觉行人再识别

钱锦浩, 宋展仁, 郭春超, 赖剑煌, 谢晓华


基于视频图像的视觉行人再识别是指利用计算机视觉技术关联非重叠域摄像头网络下的相同行人, 在视频安防和商业客流分析中具有重要应用. 目前视觉行人再识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如摄像机的拍摄视角不同、遮挡现象和光照变化等所导致的行人表观变化和匹配不准确问题. 为了克服单纯视觉匹配困难问题, 本文提出一种结合行人表观特征跟行人时空共现模式的行人再识别方法. 所提方法利用目标行人的邻域行人分布信息来辅助行人相似度计算, 有效地利用时空上下文信息来加强视觉行人再识别. 在行人再识别两个权威公开数据集Market-1501和DukeMTMC-ReID上的实验验证了所提方法的有效性.


钱锦浩, 宋展仁, 郭春超, 赖剑煌, 谢晓华. 基于时空共现模式的视觉行人再识别. 自动化学报, 2022, 48(2): 408−417

Qian Jin-Hao, Song Zhan-Ren, Guo Chun-Chao, Lai Jian-Huang, Xie Xiao-Hua. Visual person re-identification based on spatial and temporal co-occurrence patterns. Acta Automatica Sinica, 2022, 48(2): 408−417

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200897?viewType=HTML


目前, 随着“智慧城市”和“平安城市”等项目建设, 众多公共场所均部署了大量的监控摄像头, 形成了庞大的监控摄像头网络. 对这些摄像头的内容进行关联分析显得越来越重要, 这也是计算机视觉领域当前研究热点之一. 行人再识别(Person re-identification)技术旨在判断跨摄像头视域下的多个行人图像是否来自同一行人[1]. 行人再识别技术能够进一步应用于跨摄像头下的目标追踪、目标路径分析以及目标搜索等问题. 该技术实现了监控视频的智能关联分析, 其在智慧城市、公共安全、商业客流分析、城市安防和视频图像大数据处理等方面扮演极其重要的角色, 具备非常广泛的应用场景.


目前基于视频图像的行人再识别领域的研究工作主要分为两个类别, 分别是基于表征的方法以及基于度量学习的方法. 这两类方法分别旨在寻找识别性强的特征表达与学习特征间相似度度量, 使得相同身份的行人之间的相似度较大, 相异身份的行人之间的相似度较小. 随着深度学习技术的发展, 以上两类方法逐渐达成紧密结合. 然而, 这两类方法的研究重点均聚焦于行人的表观视觉信息. 由于现实场景中的目标行人姿态变化多端, 加之环境遮挡物的影响、拍摄角度和距离的改变以及光照的变化, 监控摄像头拍摄的行人视频图像会呈现较大变化, 这无疑为单纯依靠视觉匹配的行人再识别带来巨大挑战.


针对单纯视觉识别的不足, 研究人员开始应用各种上下文信息用于补充视觉匹配, 比如视频图像采集的时空信息[2-4]、人群辅助[5-7]等. 其中, 人群辅助方法主要基于这种观察: 在实际人流中经常存在相对稳定的小群体, 这种群体也许是互相认识的同伴, 也许是由于某些特殊原因形成相同时空轨迹的陌生人小群体(譬如在火车站相同班次到站的人群). 这种相对稳定小群体对特定行人的再识别具有积极的辅助作用.


根据上面分析, 本文将人群定义为一个时间窗口内从同一摄像头下经过的行人集合. 基于此定义, 本文提出了一种结合表观特征与行人时空共现模式的行人再识别方法. 所提方法把现实中行人之间的时空联系看作是一种共同出现的模式状态作为上下文信息来辅助行人相似度的计算. 本文在行人再识别两个权威的公开数据集Market-1501[8]和DukeMTMC-ReID[9]上对该方法的有效性进行了实验验证.



07

基于权重因子自校正的主蒸汽温度外挂广义预测串级控制

王懋譞, 王永富, 柴天佑, 张晓宇


针对电厂目前普遍采用PI-PI串级控制器调节锅炉主蒸汽温度系统, 不能有效克服惯性、时滞和参数时变等问题的影响, 本文提出了一种理想GPC (Generalized predictive control)-PI串级控制器. 首先, 该理想串级控制器不仅能抑制一次和二次扰动, 而且外环GPC通过对主蒸汽温度的多步预测, 并结合滚动优化技术能有效克服主蒸汽温度系统的惯性和时滞问题. 另外, 针对主蒸汽温度系统参数时变的特性, 该理想控制器采用了T-S (Takagi-Sugeno)型模糊神经网络(Fuzzy neural network, FNN)作为主蒸汽温度模型, 该模型能够通过反馈校正技术实时更新模型参数. 同时, 为了改善主蒸汽温度系统动态响应品质和稳定性, 对外环GPC中的权重因子进行了模糊自校正设计, 通过理论分析和对比仿真验证了该理想GPC-PI串级控制器优于权重因子固定的GPC-PI和PI-PI串级控制器. 最后, 考虑到直接将电厂集散控制系统(Distributed control system, DCS)中的PI-PI串级控制器升级为理想GPC-PI串级控制器存在安全以及风险责任等问题, 故将电厂的传统PI-PI串级控制器升级成外挂的GPC-PI-PI串级控制器, 既改善了锅炉主蒸汽温度的控制效果又规避了风险责任, 实际应用验证了该方法的有效性.


王懋譞, 王永富, 柴天佑, 张晓宇. 基于权重因子自校正的主蒸汽温度外挂广义预测串级控制. 自动化学报, 2022, 48(2): 418−433 doi: 10.16383/j.aas.c200195

Wang Mao-Xuan, Wang Yong-Fu, Chai Tian-You, Zhang Xiao-Yu. External generalized predictive cascade control for main steam temperature based on weight factor self-regulating. Acta Automatica Sinica, 2022, 48(2): 418−433 doi: 10.16383/j.aas.c200195

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200195?viewType=HTML


主蒸汽温度是火力发电厂热力系统中的重要参数指标之一. 主蒸汽温度的控制目标是维持末级过热器出口温度在允许范围内, 以保证电厂的经济运行, 同时还要防止主蒸汽温度波动导致的金属疲劳, 危及机组的安全运行[1]. 在过热器入口调节减温水后, 由于过热器管道长度和蒸汽容积较大, 主蒸汽在过热器中的吸热过程时间较长, 主蒸汽温度的变化会滞后. 同时, 受到升降负荷、蒸汽流量、烟气侧温度、煤质等扰动的影响, 主蒸汽温度的动态特性也会发生变化. 因此主蒸汽温度系统表现出大惯性、大时滞、随机扰动、参数时变等复杂动态特性, 成为电厂热工过程控制中的难点[2].


目前, 在电厂主蒸汽系统中仍然大规模采用串级PI控制器, 通过调节减温水实现主蒸汽温度的控制. 主蒸汽温度串级PI控制结构的优势在于内环PI回路比外环PI回路调节迅速, 内环的二次扰动可以被快速抑制, 保证系统控制的稳定. 虽然内环PI控制器解决了内环回路二次扰动的控制问题, 但是外环PI控制器只根据当前时刻的主蒸汽温度偏差进行调节, 由于末级过热器存在惯性和时滞的动态特性, 导致出现主蒸汽温度超调量大、调节周期长、难以稳定的问题[3].


为了解决主蒸汽温度系统的时滞问题, 文献[4]利用Smith预测模型估计出主蒸汽温度的时滞动态特性, 通过补偿控制, 改善了主蒸汽温度的控制效果. 但Smith预测模型参数需要精确辨识, 只有当预测模型与实际过程相匹配时, Smith预测控制才能实施有效控制. 文献[5-7]分别结合神经网络和模糊系统整定主蒸汽温度系统外环PI 控制器参数, 文献[8]和文献[9]则分别采用遗传算法和粒子群算法优化主蒸汽串级PI控制器的参数. 上述文献虽然改善了串级PI控制器的调节效果, 但是其整定优化方法仍然依据当前时刻的主蒸汽温度偏差来设计, 未考虑到主蒸汽温度的惯性和时滞问题. 因此PI-PI串级控制结构的外环PI回路难以克服主蒸汽温度系统惯性和时滞动态特性的影响.


基于模型的预测控制采用多步预测、在线滚动优化和反馈校正策略, 能够有效克服被控对象惯性、时滞和参数时变的动态特性, 其原因在于: 1) 通过过程模型的多步预测, 被控对象惯性和时滞的动态特性被融入到有限时域的滚动优化目标中; 2) 通过实时反馈校正, 过程模型能够有效克服参数时变的特性; 3) 预测控制可以通过可调参数的整定, 调节被控对象和控制增量的变化速率, 防止被控对象的超调和振荡. 因此预测控制方法非常适合主蒸汽温度的控制任务. 国内外学者应用模型预测控制, 在主蒸汽温度的控制中进行了有益的探索, 通过仿真实验或实际应用验证了主蒸汽温度预测控制的有效性.


如文献[1]利用锅炉运行实验数据, 离线辨识出主蒸汽温度在500 MW负荷下的受控自回归滑动平均模型, 在此模型基础上设计广义预测控制器(Generalized predictive control, GPC), 由于锅炉负荷变化会导致主蒸汽温度系统的参数发生较大变化, 显然特定负荷下的主蒸汽温度模型无法对其他负荷工况下的主蒸汽温度实现有效预测. 为了解决负荷变化导致的主蒸汽温度模型参数时变的问题, 文献[10]在锅炉历史运行数据的基础上, 离线辨识了5个典型负荷下的主蒸汽温度模型, 利用神经模糊模型建立主蒸汽温度全局非线性动态模型, 神经模糊模型在线运行时根据负荷指令可以得到当前工况下的主蒸汽温度模型. 文献[11]首先采用模糊聚类算法离线辨识典型工况下的主蒸汽温度模型, 然后利用T-S (Takagi-Sugeno)模糊逻辑系统建立主蒸汽温度全局非线性动态模型用于主蒸汽温度的预测. 上述文献中离线辨识的主蒸汽温度模型同预测控制理论相比, 没有设计在线反馈校正环节, 需要进一步考虑主蒸汽温度系统中其他扰动导致的模型参数时变和模型失配引起的稳定性问题.


基于上述文献的工作, 将模型预测控制应用于主蒸汽温度的调节, 需要在以下几个方面进一步完善: 1) 主蒸汽温度模型在实际应用中需要结合预测控制的反馈校正技术, 通过在线辨识算法实时更新主蒸汽温度模型, 克服主蒸汽温度系统参数时变特性; 2) 预测控制优化目标中的可调参数例如权重因子对系统的稳定性和调节效果具有较大影响, 其优化整定方法有待进一步深入研究; 3) 在电厂实际应用当中, 直接修改集散控制系统(Distributed control system, DCS)中的控制结构会导致电厂运行系统安全和风险责任的问题. 因此在保证安全的前提下, 如何设计独立的外挂主蒸汽温度预测控制系统成为本文重点研究的内容; 4) 应用模型预测控制与电厂实际相结合时, 主蒸汽温度系统的收敛性和稳定性需要进一步探究.


因此本文提出一种基于权重因子自校正的广义预测串级控制器, 并应用于电厂锅炉主蒸汽温度控制. 本文的主要贡献包括:


1) 本文采用T-S型模糊神经网络(Fuzzy neural network, FNN)对锅炉主蒸汽温度系统进行建模[12-15], 并设计了基于梯度下降和递推最小二乘(Recursive least square, RLS)的参数在线辨识方法, 有效克服了主蒸汽温度系统参数时变的特性.


2) 通过主蒸汽温度的多步预测, GPC结合滚动优化技术有效克服了主蒸汽温度系统的惯性和时滞等问题. 在分析权重因子对主蒸汽温度调节效果和稳定性影响的基础上, 设计了权重因子模糊自校正环节. 本文对主蒸汽温度系统的收敛性和稳定性进行了分析, 对比仿真验证了理想GPC-PI串级控制器相比于权重因子固定的GPC-PI和PI-PI串级控制器, 能够实现主蒸汽温度动态响应速度快、超调量小、稳定性好的综合调节效果.


3) 在电厂的实际应用中, 为了保证锅炉DCS的安全运行, 在对原有DCS中PI-PI串级控制结构不进行修改的前提下, 本文将电厂原始PI-PI串级控制器升级成外挂GPC-PI-PI串级控制器, 并对电厂实际应用中主蒸汽温度系统的收敛性进行了分析. 实际应用中不仅取得了良好的控制效果, 而且极大地规避了风险责任.


本文结构安排如下: 第1节介绍了电厂常用的主蒸汽温度串级PI控制结构及其特性, 然后提出了理想广义预测串级控制结构. 第2节详细介绍了基于T-S型FNN的理想主蒸汽温度模型, 分别设计了基于梯度下降法和基于递推最小二乘的参数更新算法. 第3节设计了主蒸汽温度的理想GPC-PI控制策略和权重因子的模糊动态调节过程, 并对系统性能及稳定性进行分析, 通过对比仿真验证了本文所提出方法的有效性. 第4节介绍了实际电厂应用的外挂GPC-PI-PI控制策略、性能分析以及控制效果. 第5节为本文的结论.



08

面向扑翼飞行控制的建模与奇异摄动分析

钱辰, 方勇纯, 李友朋


针对扑翼飞行中的周期性和时标不一现象, 以及扑翼飞行实际控制中的问题, 本文基于奇异摄动理论, 提出了一种针对扑翼周期系统的稳定性分析方法. 具体而言, 首先建立了扑翼飞行器的多刚体模型, 为后文对翅翼动力学的奇异摄动分析铺平道路; 其次, 对多刚体模型进行简化, 抽象出扑翼飞行动力学的核心问题, 并针对实际控制中的问题, 提出了利用奇异摄动理论分析扑翼飞行周期稳定性的方法, 指出了其相对于其他方法的优越性; 最后, 在自制的四自由度扑翼飞行器完成了真实的飞行实验, 验证了所提方法的有效性.


钱辰, 方勇纯, 李友朋. 面向扑翼飞行控制的建模与奇异摄动分析. 自动化学报, 2022, 48(2): 434−443 doi: 10.16383/j.aas.c190858

Qian Chen, Fang Yong-Chun, Li You-Peng. Control oriented modeling and singular perturbation analysis in flapping-wing flight. Acta Automatica Sinica, 2022, 48(2): 434−443 doi: 10.16383/j.aas.c190858

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190858?viewType=HTML


近年来, 仿生机器人在机器人界得到越来越多的关注[1-4], 而扑翼飞行正是仿生机器人研究中的焦点之一[5-7]. 对扑翼飞行原理的探索不仅具有深刻而广泛的理论价值, 更具有较高的工程应用价值. 与此同时, 由于扑翼飞行的高效性、灵活性和隐蔽性, 其在地形探索、目标追踪、军事侦察、生态监测等领域均有广阔应用前景.


由于扑翼飞行的形态学特性, 弹性结构以及其特殊的往复运动模式, 在扑动过程中, 气体的粘性力和惯性力的作用均不可忽视, 进而造成了多种复杂的非定常气动力学现象[1, 8-10]. 具体而言, Ellington等在文献[11-12]中详细分析了由于前缘涡的存在, 产生失速延时(可以不失速地大攻角平动)的现象, 阐明了其在提升扑翼升力中所发挥的重要作用, 并在实际实验中对前缘涡的具体产生和演变过程进行了观测与分析. Dickinson等在文献[13-14]中强调了翅翼旋转产生的升力对昆虫飞行的重要作用, 并揭示了其在昆虫机动飞行中所扮演的重要角色. Weis-Fogh[15]在研究丽蚜小蜂的扑翼飞行时发现了著名的拍合−剥离特性(Clap-and-fling), 他认为在拍合过程中并没有明显的气动力学影响, 但是翅翼拍合保证了翅翼在剥离之前位置的确定性, 并且指出在剥离过程中在左右翼之间出现绕翼环流, 在完成剥离之后环流也随即迅速演化成翅翼边缘的稳定涡流, 整个过程均提升了翅翼所产生的升力. Miller等[16]和Percin等[17]分别研究了翅翼弹性在拍合−剥离过程中的具体作用与影响, 并指出拍合过程中向下的射流也有助于提升升力. Shyy等和Chin等分别在文献[18]和文献[19]中, 对扑翼的非定常气动力特性进行了系统总结, 具体包括前缘涡效应、翼面快速旋转、拍合−剥离、附加质量效应、尾迹捕捉等.


建立扑翼飞行的动力学模型需要对复杂的气动力特性进行必要的简化. 而求解不可压粘性流体运动对应的纳维−斯托克斯方程非常困难, 建立扑翼空气动力学的准稳态模型, 几乎是解析分析扑翼系统动力学特性的唯一方式. 根据不同的具体系统特性, 以及模型具体的应用场景, 可以建立不同的准稳态模型[14, 19-23]. 所建立的准稳态扑翼动力学模型, 既可以用于扑翼动力学系统特性的分析, 也可以用于实际扑翼飞行器的设计与控制. Sun等在文献[24-26]中详细分析了昆虫躯干−翅翼的多刚体模型后, 用“刚体假设”简化了翅翼的运动从而获得机体动力学模型, 并进一步用扑翼周期平均的方法分析了系统的稳定性和能控性. 他们还将系统在周期解附近线性化, 利用Floquet原理分析了系统周期解附近小扰动干扰下的稳定性. Taha等在文献[27]中强调了高阶平均化理论在分析扑翼稳定性中的重要性, 但是在系统简化过程中他们直接用三角函数模拟了翅翼的运动学行为, 忽略了翅翼周期运动的动力学特性. Cheng等在文献[28]中考虑了机体运动对翅翼运动学的影响, 并利用气动准稳态模型进一步建立了三维空间6自由度刚体的模型, 且分析了4种昆虫的被动稳定性. 在实际的扑翼飞行器控制中, 作用于机体的力与力矩通常和翅翼的运动学关联, 或者更直接地与决定翅翼运动的参数相关联. 通过把翅翼步态映射到周期平均力与力矩, 并以6自由度刚体运动模型作为系统模型, 从而设计相应的控制器来完成针对不同环境 或任务的机体姿态、位置或速度的控制方法[29-32]. 其中需要特别指出, Ramezani等在文献[33-34]中采用拉格朗日方法对仿蝙蝠扑翼飞行器进行多刚体建模, 并指出扑翼系统的零动态难以确定, 而采用反馈线性化的方法来设计控制器, 并且分析了闭环系统位置环和姿态环的时标分离.


在这些扑翼系统建模和控制的方法中, 极少考虑翅翼的动力学特性. 这也就默认了翅翼系统周期运动的稳定性, 且其具体运动特性不会被机体本身运动所干扰. 但这种稳定性并不是系统固有的, 所以这种单纯从运动学角度考虑翅翼行为的方式, 显然是对系统的过度简化, 难以全面描述系统的具体动力学特性. 因此, 在扑翼系统动力学系统中, 对翅翼动力学系统的周期稳定性分析是非常必要的. 此外, 扑翼动力学系统中往往包含着子系统之间的时标分离. 并且, Orlowski等在文献[35]中指出, 翅翼和机体之间的运动可能不处于同一时间尺度, 但由于翅翼系统没有确定的收敛点而可能只存在某个收敛轨迹, 所以无法使用常规的针对临界点的奇异摄动理论进行分析.


对于上述存在的问题, 本文针对扑翼飞行周期性系统进行奇异摄动分析. 具体而言, 我们在给定周期进行频闪采样, 利用这些采样构建相应的离散系统, 进而反映扑翼飞行的状态变化. 通过周期输入和简化模型共同确定扑翼周期的步态, 并在一定程度上忽略实际周期内的具体行为. 进而通过观测构建的离散系统, 综合周期输入和简化模型确定的步态信息, 共同估计扑翼飞行的周期状态, 并在这一基础上使用奇异摄动理论对其稳定性进行了分析. 本文主要贡献可以概括为以下两个方面:


1)建立尽可能简洁的扑翼多刚体动力学模型, 为扑翼飞行周期动力学的奇异摄动分析提供了基础;


2)基于奇异摄动理论, 提出了适用于实际扑翼飞行问题的系统周期稳定性分析方法.


本文其余部分组织如下: 在第1节中建立了扑翼多刚体模型, 在第2节中利用奇异摄动理论分析了扑翼飞行周期性系统的稳定性, 在第3节中利用实际实验验证了所提方法的有效性和可行性, 最后在第4节做出了总结.




09

带有资源冲突的Seru在线并行调度算法

江煜舟, 李冬妮, 靳洪博, 殷勇


随着大规模定制的市场需求日趋显著, 赛如生产系统(Seru production system, SPS)应运而生, 逐渐成为研究和应用领域的热点. 本文针对带有资源冲突的Seru在线并行调度问题进行研究, 即需要在有限的空间位置上安排随动态需求而构建的若干Seru, 以总加权完工时间最小为目标, 决策Seru的构建顺序及时间. 先基于平均延迟最短加权处理时间(Average delayed shortest weighted processing time, AD-SWPT)算法, 针对其竞争比不为常数的局限性, 引入调节参数, 得到竞争比为常数的无资源冲突的Seru在线并行调度算法. 接下来, 引入冲突处理机制, 得到有资源冲突的Seru在线并行调度算法, αAD-I (α-average delayed shortest weighted processing time-improved)算法, 特殊实例下可通过实例归约的方法证明其竞争比与无资源冲突的情况相同. 最后, 通过实验, 验证了在波动的市场环境下算法对于特殊实例与一般实例的优越性.


江煜舟, 李冬妮, 靳洪博, 殷勇. 带有资源冲突的Seru在线并行调度算法. 自动化学报, 2022, 48(2): 444−459 doi: 10.16383/j.aas.c190698

Jiang Yu-Zhou, Li Dong-Ni, Jin Hong-Bo, Yin Yong. An online algorithm for parallel scheduling of serus with resource conflicts. Acta Automatica Sinica, 2022, 48(2): 444−459 doi: 10.16383/j.aas.c190698

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190698?viewType=HTML


随着大规模定制发展的趋势, 传统的生产系统, 如流水线(Flow line)、丰田生产系统(Toyota production system, TPS)、作业车间(Job shop)、单元制造系统(Cellular manufacturing system, CMS)等, 难以适应对动态不确定市场的快速响应需求, 赛如生产系统(Seru production system, SPS)应运而生[1-3].


Yin等[4]的研究展示了传统生产系统转化为SPS的重要性, Liu等[5-6]的研究也表明SPS具有传统生产系统难以企及的先进性和发展前景[7]. 自二十世纪九十年代起, SPS已经逐渐被亚洲的众多电子企业采用, 如三星、佳能、LG、索尼、松下、富士通、NEC、富士康等[8-10].


Seru代指SPS下的最小生产单元, 脱胎自基于精益(Lean)思想[11]的装配流水线, 一个Seru通常是生产一种或多种产品的装配单元, 包含若干设备和工人.


一个SPS至少包含一个Seru. SPS中的每一个Seru都能够频繁地在短时间内被重构, 这给SPS带来了极大的灵活性. 可以快速频繁地建立、改变、拆除和转化, 以响应频繁波动的市场需求[9-10].


SPS运作管理的基本原则为面向“组织”的准时生产原则(Just-in-time organisation system, JIT-OS), 是TPS传统的面向“物料”的准时生产原则(Just-in-time material system, JIT-MS)的延伸. JIT-MS指在合适的时间地点投入合适的物料, 强调的是物料. 而JIT-OS强调的是组织, 对应到SPS, 即在合适的时间地点构建合适的Seru. 这让SPS可以通过调整生产组织结构快速获得相应的生产能力, 为重构的实施提供了有效的载体和途径[1].


SPS的运作可以被划分为Seru构建与Seru调度两个部分, Seru构建指如何依据订单任务对人员进行分配与组合, Seru调度指如何在有限的空间下安排各个Seru的构建顺序及时间, 目前相关研究大都侧重于Seru构建. 如Liu等提出的解决工人分配问题的三段式启发模型[12]、Yu等提出的以产品流通时间和总劳动时间为目标的一种非支配排序遗传算法[13]、Yu等结合局部搜索算法提出的第二代非支配排序遗传算法[14]、吴旭辉等联合Seru构建与订单分配提出的一种协同进化算法[7]、贾凌云等[15]与田云娜等[16]对跨单元调度问题的研究等.


目前对Seru调度这一方面的研究相对较少, 难以充分体现SPS调整结构的动态性, 但要想充分发挥出SPS的灵活性, 快速响应“小批量, 多品种”市场的动态变化, 在提高Seru构建效率之外, 还需要考虑结构上的变化, 即Seru调度. 如何在有限的位置上安排Seru的构建顺序及时间也是SPS运作管理基本原则JIT-OS的一项重要内容.


据此, 本文对Seru在线并行调度问题展开了研究, 该问题具体是指, 将随时间动态构建的n个Seru安排到有限的m个位置上, 以总加权完工时间最小为目标, 在线决策各Seru的构建顺序及时间. 同时, 考虑到具体的生产环境, 为了增强算法的实用性, 本文还将对带有资源冲突的Seru在线并行调度问题进行讨论.


本文接下来的内容安排如下: 第1节, 给出具体的问题模型; 第2节, 给出AD-SWPT算法优化后得到的具有良好常数竞争比的在线算法; 第3节, 给出带有资源冲突的Seru在线并行调度算法, 并计算特殊实例下算法的竞争比; 第4节, 设计相关实验, 展示实验结果, 分析实验数据; 第5节为结论部分.



10

基于可见光与红外热图像的行车环境复杂场景分割

陈武阳, 赵于前, 阳春华, 张帆, 余伶俐, 陈白帆


复杂场景分割是自动驾驶领域智能感知的重要任务, 对稳定性和高效性都有较高的要求. 由于一般的场景分割方法主要针对可见光图像, 分割效果非常依赖于图像获取时的光线与气候条件, 且大多数方法只关注分割性能, 忽略了计算资源. 本文提出一种基于可见光与红外热图像的轻量级双模分割网络(DMSNet), 通过提取并融合两种模态图像的特征得到最终分割结果. 考虑到不同模态特征空间存在较大差异, 直接融合将降低对特征的利用率, 本文提出了双路特征空间自适应(DPFSA)模块, 该模块能够自动学习特征间的差异从而转换特征至同一空间. 实验结果表明, 本文方法提高了对不同模态图像的利用率, 对光照变化有更强的鲁棒性, 且以少量参数取得了较好的分割性能.


陈武阳, 赵于前, 阳春华, 张帆, 余伶俐, 陈白帆. 基于可见光与红外热图像的行车环境复杂场景分割. 自动化学报, 2022, 48(2): 460−469 doi: 10.16383/j.aas.c210029

Chen Wu-Yang, Zhao Yu-Qian, Yang Chun-Hua, Zhang Fan, Yu Ling-Li, Chen Bai-Fan. Complex scene segmentation based on visible and thermal images in driving environment. Acta Automatica Sinica, 2022, 48(2): 460−469 doi: 10.16383/j.aas.c210029

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210029?viewType=HTML


环境感知作为自动驾驶系统的重要环节, 对于车辆与外界环境的理解、交互起关键作用. 然而, 真实情景中的行车环境感知, 需要解决复杂场景下感知精度不高、实时性不强等关键技术问题. 行车环境感知主要包括目标检测与语义分割[1]. 语义分割在像素级别上理解所捕获的场景, 与目标检测相比, 能够产生更加丰富的感知信息, 并且分割结果可以进一步用来识别、检测场景中的视觉要素, 辅助行车环境感知系统进行判断. 目前, 相关的公共图像分割数据集与语义分割网络大多数都是基于可见光图像. 可见光图像能够记录物体丰富的颜色和纹理特征, 但在光照条件不足或光照异常时(如: 暗黑中迎面的大灯照射), 可见光图像的质量会大幅降低, 导致网络无法正确分割对象, 进而影响行车环境感知系统在这些环境下的准确性. 红外热成像相机与可见光相机不同, 其通过探测物体热量获取红外辐射信息, 因此对光线与天气的变化更加鲁棒, 缺点在于红外热图像提供的信息量较少, 视觉效果模糊. 由此可见, 若仅依靠单一传感器, 难以精确分割不同环境下的场景. 本文主要研究行车环境下基于可见光与红外热图像的复杂场景分割, 尝试利用深度学习技术挖掘不同传感器之间的互补信息提升分割性能, 使车辆能够充分感知其周围环境.


场景分割作为行车环境感知的基本技术需求, 一直以来受到研究人员的关注. 目前, 绝大部分研究集中在可见光图像上, 分割方法从初期的基于阈值、区域、边缘等由人工设计特征的传统算法, 向基于深度学习的语义分割网络过渡; 研究内容则根据可见光图像分割的难点大致从增加分割精细度、增强网络对多尺度的泛化能力和学习物体空间相关性三个方向提升网络性能. 如文献[2]利用膨胀卷积模块用来保留特征图中的细节信息, 预测更加准确的结果; 文献[3]使用一个共享参数的卷积神经网络训练不同尺度的图像获得多尺度特征; 文献[4]利用循环神经网络适用于序列数据编码的特性, 捕捉物体的空间关系等. 虽然上述研究提高了分割准确率并解决了某些技术难题, 但大多数方法只注重提升精度而忽略了网络大小和分割速度, 导致所提出的方法难以在行车环境感知系统中落地. 此外, 基于可见光图像的分割方法无论如何改进, 其输入数据来源决定了这些方法无法避免因光线不足、分割对象与背景颜色纹理一致等导致的分割误差.


红外热成像相机由于其能够全天时、全天候有效工作的特性, 在车辆驾驶领域中的应用越来越广泛[5-6]. 例如, 对红外图像中的行人进行识别, 能提供危险区域、安全距离等重要信息, 从而辅助行车系统更好地进行路径规划, 提高其可靠性与鲁棒性. 一般来说, 面向红外图像的分割算法都是通过人工设计特征来描述前景与背景的差异, 如基于阈值、模糊集和最短路径等方法, 但它们通常对场景变化和噪声很敏感, 无法适应车辆所处的复杂环境.


近年来, 有学者开始关注基于多种传感器的感知方法[7], 尝试通过融合多模态数据充分挖掘信息, 提高行车感知系统的性能[8]. Ha等[9]首次尝试结合可见光与红外热图像进行场景分割, 提出了基于卷积神经网络的MFNet分割模型, 并创建了一个可见光与红外热图像的场景分割数据集. RTFNet[10]在MFNet的基础上引入残差结构[11]进一步加强了信息的融合, 提高了场景分割结果的准确性, 由于该网络结构过于庞大且参数数量显著增加, 与行车环境感知系统需要轻量级、实时性高的分割模型相违背, 有待进一步改进. 在此之前, 针对多传感器感知的研究集中在应用点云与可见光融合进行目标检测[12-13], 可见光与深度图像进行分割[14], 以及针对多光谱图像进行目标检测[15-16]等.


本文提出一种基于可见光与红外热图像的复杂场景分割模型DMSNet (Dual modal segmentation network), 该模型通过构建轻量级的双路特征空间自适应(Dual-path feature space adaptation, DPFSA)模块, 将红外热特征与可见光特征变换到同一空间下进行融合, 然后学习融合后的多模态特征, 并提取这些特征中的低层细节与高层语义信息, 从而实现对复杂场景的分割. 实验结果表明, 该模型可减少由于不同模态特征空间的差异带来的融合误差, 即使在光线发生变化时也表现出较强的鲁棒性, 分割结果相对其他方法也有明显改进.



11

基于 GBDT 的铁路事故类型预测及成因分析

钟敏慧, 张婉露, 李有儒, 朱振峰, 赵耀


运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.


钟敏慧, 张婉露, 李有儒, 朱振峰, 赵耀. 基于 GBDT 的铁路事故类型预测及成因分析. 自动化学报, 2022, 48(2): 470−478 doi: 10.16383/j.aas.c190630

Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2022, 48(2): 470−478 doi: 10.16383/j.aas.c190630

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190630?viewType=HTML


近年来, 我国铁路事业高速发展, 在推动国民经济发展中发挥着至关重要的作用. 与此同时, 铁路安全问题也愈发受到重视. 在大数据时代, 如何利用铁路事故历史记录数据发掘有用信息, 建立事故预警机制, 对于推动铁路行业信息化, 提高运输效率, 防范安全隐患具有重要意义. 铁路事故类型预测和事故致因分析是建立事故预警机制的两个基础环节. 铁路事故预测利用历史事故记录估计和判断未来某种情况下是否会发生事故. 铁路事故成因分析通过分析事故发生时的客观环境与人为因素, 寻找造成事故的最可能原因, 从而采取针对性的预警防护手段. 因此, 利用铁路事故历史记录, 采用数据挖掘技术发掘其中有用信息, 进行铁路事故类型预测与成因分析具有重大现实意义.


铁路事故类型预测的本质是一个多分类问题. 常用的多分类模型有逻辑回归(Logistic regression, LR)[1]、支持向量机(Support vector machine, SVM)[2]和决策树(Decision tree, DT)[3]等. 文献[4]利用决策树算法进行煤与瓦斯的突出预测. 然而, 这类分类器主要适用于简单、平衡的数据训练, 对于铁路事故记录这种复杂、类别失衡的高维数据, 训练较为困难, 且预测结果不够理想. 集成学习能够将多个模型集成以获取更好的预测结果, 对于不平衡数据的分类问题具有更好的有效性. 常用集成学习模型主要包括随机森林(Random forest, RF)[5]和梯度提升决策树(Gradient boosting decision tree, GBDT)[6-7]. RF基于Bagging思想[8], 并行集成基学习器, 模型简单, 计算开销小; 而GBDT则是基于Gradient boosting思想[6, 9], 对基学习器进行串行集成, 对数据拟合能力很强. 文献[10-13]分别使用以上模型进行预测.


铁路事故成因分析是对事故类型预测的反演. 常用的事故成因分析方法有复杂网络方法、灰色理论等. 文献[14]结合灰色综合关联度和信息熵, 利用熵分析事件不确定性的原理, 针对事故相关属性的重要度进行分析. 文献[15]运用多维关联规则提取技术找出事故成因关联规则. 上述事故成因分析方法对于值类别数较多的特征, 运算较复杂.


此外, 现有铁路事故记录数据存在严重的数据缺失问题, 在进行铁路事故类型预测和归因前, 首先需要对数据进行补全. 选择合适的补全方法对于提升预测结果的准确性有很大影响. 目前, 常用的补全方法主要包括均值填补法、最近距离填补法、回归填补法等[16-17]. 然而, 前两种方法在某种程度上会影响样本状态分布, 导致预测结果的偏差; 回归填补法仅适用于连续特征, 对于离散特征并不适用.


针对上述问题, 本文提出了一种基于GBDT的铁路事故类型预测及成因分析算法. 首先, 针对铁路事故数据缺失问题, 提出了一种基于属性分布概率的补全算法, 该算法最大程度地保持了原有的数据结构, 从而降低数据缺失对于类型预测造成的影响. 其次, 提出了一种基于Bagging的集成GBDT模型, 针对类别失衡的铁路事故历史记录数据能够进行高效训练, 得到准确的事故类型预测结果. 同时, 结合统计学习理论, 根据GBDT预测模型中的特征重要度排序, 实现事故致因分析. 算法整体框架如图1所示. 通过在公开的铁路事故数据库上进行实验, 验证了本文所提算法的有效性.



12

微电网的电流均衡/电压恢复自适应动态规划策略研究

王睿, 孙秋野, 张化光


含多类型分布式电源的微电网已经成为了未来电力系统的重要发展方向, 其中风能和光能在降低化石能源消耗和二氧化碳排放等方面有着极大优势, 考虑二者之间强互补性的协同调度已被广泛研究. 但风/光协同调度的微电网多关注分钟级的调度或优化问题而非风/光波动下秒级的实时电流按容量比例精准分担, 简称电流均衡, 而精准电流均衡有助于可再生能源的高比例消纳. 因此, 本文提出了基于自适应动态规划的微电网电流均衡和电压恢复控制策略. 首先, 构建包含风电整流型电能变换器和光电升压型电能变换器的广义风光拓扑同胚升压变换器模型, 其提供了后续控制器设计的模型基础. 其次, 本文将电流均衡和电压恢复问题转化为最优控制问题, 基于此, 每个能源主体的目标函数转化为获取最优控制变量和最小电压/电流控制偏差, 进而转化为求解哈密顿−雅克比−贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程问题. 基于此, 提出了基于贝尔曼准则的分布式自适应动态规划控制策略以求取HJB方程的数值解, 最终实现电流均衡和电压恢复. 最后仿真结果验证了所提分布式自适应动态规划控制策略的有效性.


王睿, 孙秋野, 张化光. 微电网的电流均衡/电压恢复自适应动态规划策略研究. 自动化学报, 2022, 48(2): 479−491 doi: 10.16383/j.aas.c210015

Wang Rui, Sun Qiu-Ye, Zhang Hua-Guang. Research on current sharing/voltage recovery based adaptive dynamic programming control strategy of microgrids. Acta Automatica Sinica, 2022, 48(2): 479−491 doi: 10.16383/j.aas.c210015

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210015?viewType=HTML


2015年, 巴黎气候变化峰会提出将全球气候变化控制在2摄氏度之内[1], 中、美、欧、日等世界主要国家以此制定了相关的碳达峰和碳中和的目标[2]. 为实现上述目标, 高比例可再生能源成为了最优选择, 其中风能和光能被评为最具潜力的两种可再生能源[1, 3-4]. 同时, 风能和光能在时间和空间上具有很强的互补特性, 例如在我国东北地区气候往往呈现晴天光照充沛而阴天风速较高的特性[5]. 如何利用此互补特性实现可再生能源高比例消纳成为了当前亟待解决的重/难点问题. 如果每个能源主体按照自身容量比例输出其电流, 可再生能源的利用率和系统的稳定性/弹性可以得到极大的提升[6]. 因此, 本文提出了基于分布式自适应动态规划的含多类型分布式电源的微电网电流均衡/电压恢复协调控制策略, 有助于实现可再生能源的高比例消纳.


近年的研究表明, 同时含风能和光能的微电网系统已经得到了广泛的研究并且在各国建立了相关的应用园区, 如澳大利亚, 德国等[7-8]. 目前对于此类微电网系统的研究多集中在系统规划设计和最优经济调度而非能源主体的实时控制[9]. 文献[10]构建了内嵌电源和负载随机变化的典型微电网系统的优化配置策略. 文献[11]提出了基于Lp技术的混合规划优化算法以获取最优的微电网系统的配置策略. 同时, 文献[12]提出了微电网系统分层分布式模型预测控制策略, 利用上层分布式迭代控制器实现经济最优, 利用底层监督预测控制器以确保跟踪性能. 然而, 上述研究内容皆未解决微电网系统的实时电流均衡和电压恢复问题. 由于含风能和光能的微电网系统广泛存在并且风/光波动下秒级的实时电流均衡尚属空白, 因此实时电流均衡控制策略亟待提出.


众多学者常基于不同类型的可再生能源等效为理想直流电压源并且忽略其拓扑异构特性的假设, 来研究电流均衡和电压恢复问题或者将风力发电机类可再生能源输出的交流电进行脉冲宽度调制(Pulse width modulation, PWM)整流而获得直流电, 此时含风能和光能的微电网源侧都为理想直流源. 然而上述的解决方案势必导致风力发电机组类可再生能源多级联一级Boost变换器, 从而导致微电网的建设成本和耗损成本显著增加, 随着分布式电源的数量急剧增加, 该部分成本势必难以忽略[13]. 基于理想直流源设定, 学者进行了广泛地研究以实现在有/无通信模块下的电流均衡和电压恢复. 微电网分级控制策略成为了当前的主流方法. 文献[14]从无通信模块控制策略的角度出发, 提出了初级下垂控制策略以实现网络的稳定运行. 尽管传统的下垂控制器能够较好地实现电力网络的电压调定, 但由于线路阻抗差异而致使各个分布式电源间难以实现电流均衡, 从而导致可再生能源的利用率降低[15]. 鉴于此, 相关学者提出了内嵌快速通信模块的二级集中控制或主从控制策略以实现各个能源主体间电流均衡和电压恢复[16]. 然而该类控制策略存在单点故障容忍度低和模型误差敏感等缺陷而难以适用于未来的强分布式电力系统当中[17-18].


针对上述缺陷, 相关学者提出了分布式分层控制框架, 其中分布式二级协同控制技术被设计以实现电流均衡和电压恢复. 其主要可以分为电压−电流曲线幅值调节, 电压−电流曲线斜率调节和电压−电流曲线幅值−斜率混合调节三类方法. 首先文献[19]提出了电流调节控制器和电压调节控制器以实现电流均衡和电压恢复. 进而文献[20-21]提出了分布式电压−电流曲线幅值−斜率混合调节协同控制策略以实现电流均衡和电压恢复. 同时即插即用或电压−电流双闭环零级控制策略被嵌入到分层控制框架内以提高系统的可靠性[22-23]. 而后, 针对集群分布式电源的混联系统, 文献[24]提出了异构多智能体协同控制策略以实现电流均衡. 相似地, 文献[25]提出了内嵌电压−电流双闭环的分布式二级控制策略以确保电流均衡和电压恢复. 然而上述内容都将不同动态特性的分布式电源简化为理想的直流电压源, 其完全忽略了风能和光能的不同电能变换器特性. 同时, 对电气工程师而言, 精准的系统模型是难以获取的. 针对系统状态方程模型未知的控制问题, 自适应动态规划控制策略提供了很好的选择[26]. 同时, 自适应动态规划策略已经被广泛地应用于实际系统, 如智能家居系统和储能系统的能量调度等[27-29].


由于每个能源主体按照自身容量比例输出电流被认为可以有效提高可再生能源的利用率和系统的稳定性/弹性, 基于此, 本文提出了一种基于广义风光拓扑同胚系统的分布式自适应动态规划控制策略以确保电流均衡和电压恢复. 本文的主要特点和优点如下:


1)构建了包含风光实时互补特性的广义风光拓扑同胚系统模型. 该模型能够有效简化后续初级和二级控制器设计难度和提供模型基础;


2)将电流均衡和电压恢复问题转化为最优控制问题. 基于此, 每个能源主体的目标函数被转化为获取最优控制器和最小电压/电流控制偏差;


3)提出了基于贝尔曼准则的自适应动态规划控制策略以实现电流均衡和电压恢复, 助力可再生能源的高比例消纳和系统稳定性. 同时提出的自适应动态规划策略的收敛性和稳定性被有效证明.



13

面向负载均衡的高铁路网列车开行方案优化方法

吴兴堂, 杨明坤, 王洪伟, 周敏, 吕金虎, 董海荣


针对当前高速铁路运营过程中存在的运输需求与运力资源不匹配现象, 面向负载均衡原理研究了路网条件下运能可适配的高速铁路旅客列车开行方案优化与评估方法. 首先, 针对路网条件下列车开行方案优化, 构建以提升经济效益、社会效益和网络负载均衡为目标的非线性混合整数规划模型, 并设计基于遗传算法和粒子群算法的两阶段混合搜索求解算法. 在此基础上, 考虑开行列车在高速铁路网中的抗干扰能力, 建立了面向网络化运营场景的开行方案综合评估指标体系, 揭示了故障场景下高速铁路网络性能的演化规律. 最后, 以实际高速铁路线路数据和运营数据为场景进行仿真实验, 本文提出方法在保证运输需求和路局收益的同时能够有效地提升8.66%网络整体负载均衡性, 增强发生故障时网络的抗干扰能力.


吴兴堂, 杨明坤, 王洪伟, 周敏, 吕金虎, 董海荣. 面向负载均衡的高铁路网列车开行方案优化方法. 自动化学报, 2022, 48(2): 492−503 doi: 10.16383/j.aas.c210612

Wu Xing-Tang, Yang Ming-Kun, Wang Hong-Wei, Zhou Min, Lv Jin-Hu, Dong Hai-Rong. Load-balancing oriented line plan optimization for a high-speed railway network. Acta Automatica Sinica, 2022, 48(2): 492−503 doi: 10.16383/j.aas.c210612

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210612?viewType=HTML


高速铁路凭借其安全快速、正点率高、舒适性好等特点, 已逐渐发展成为综合交通运输体系的骨干力量和国民经济的重要组成. 根据《中国国家铁路集团有限公司2020年统计公报》, 2020年全国共投产高速铁路新线2521公里, 截至2020年底, 全国铁路路网密度已经达到152.3公里/万平方公里, 高铁运营里程超过3.8万公里, 占比世界高铁总里程约2/3, 100万以上人口大城市高铁覆盖率达到95%, 全年的高铁动车组旅客发送量约为15.17亿[1]. 对比世界上高速铁路发展较为先进的国家如日本、法国和德国等, 我国已经成为世界上高铁里程最长、运输密度最高、成网运营场景最复杂的国家[2].


旅客列车开行方案是高速铁路运营组织的重要环节, 同时也是运行图编制和调整的基础和前提. 开行方案确定了列车开行的起讫点、运行路径、停站方案、车底运用等内容, 决定了运行图中各站间开行列车的密度以及列车运行的线路条件, 影响高速铁路行车作业质量、铁路部门运营效益和运输资源利用率. 因此, 对开行方案的优化研究已经吸引了国内外广大学者的关注. Fu等[3]研究以天为周期的旅客列车开行方案, 建立双层规划模型, 并设计启发式搜索算法, 确定列车开行频率以及不同模式组合下的停站方案. Gattermann等[4]研究了开行路径备选集的生成问题, 分析了不同的路径备选集对开行方案的解的影响. Yue等[5]研究了高速铁路列车停站方案和运行图协同优化问题, 使用拉格朗日松弛法将该数学模型化简为线性规划问题, 并通过列生成算法进行求解. Han等[6]以开行方案的周期性、跨线列车数量、跨线列车运营里程和固定停站模式为优化目标, 建立了多目标整数规划模型. Canca等[7]以最大化铁路部门收益为目标, 计算了路网建设、车底购买、列车开行和车辆管理等成本, 设计了一种自适应大邻域搜索算法进行求解. Park等[8]综合考虑了铁路部门运营成本和旅客的出行时间, 建立高速铁路旅客列车开行方案优化模型, 确定每条线路的列车开行频率, 同时考虑多种停站模式组合. Jamili等[9]针对工作日和节假日不同时期的客流差异, 研究了基于非站站停停站模式的城市轨道交通运营方案, 设计了鲁棒性停站方案优化方法. Fu等[10]研究了高速铁路列车停站方案优化问题, 将节点进行等级划分, 以保持停站方案的规则性、连通性和快速性为目标, 建立两阶段混合整数规划模型. Chen等[11]提出了车站间可达性和可达性程度的概念, 考虑铁路部门的经济效益和旅客的出行便捷性建立列车开行方案多目标优化模型. 佟璐[12]提出了基于客流起讫点的备选路径集与合理路径集的生成方法, 以最大化旅客出行效益为优化目标将客流分配到列车服务网络上. 苏焕银等[13-14]考虑了旅客出行的时变需求, 以旅客出行时间和列车运行时间为目标, 建立Stackelberg博弈模型. 黄鉴[15]以最大化运输收益和最小化列车运行路径广义阻抗为优化目标, 采用网络划分方法, 建立了考虑客流预测和开行方案的综合优化模型. 张新[16]分析了影响高速铁路区段通过能力的因素, 并将提高区段通过能力作为总目标引入开行方案编制流程中. 综上所述, 现有对旅客列车开行方案的研究大多是针对列车运行径路方案、列车停站方案和客流分配方案中的部分进行优化, 而考虑三者综合优化的研究较少, 但三者之间密切相关、相互影响, 列车运行径路方案直接影响列车停站方案, 同时不同的停站方案会吸引不同的客流量. 在优化目标方面, 大多数学者都是从线路视角进行研究, 主要包括铁路部门运输效益、运输成本、使用列车数量等, 而从网络视角对开行方案进行研究则较少. 因此, 结合我国高速铁路网特征, 综合列车运行径路方案、列车停站方案和客流分配方案, 对面向路网、考虑整体资源利用率的开行方案优化方法进行研究具有一定的意义.


高速铁路网络可视为由基础设施层、列车流运行层与客流出行层三层结构耦合而成的复杂网络系统[17]. 基础设施层由车站和线路连接组成, 是开行列车和运输旅客的载体, 约束了列车流和客流在路网上的传输; 列车流运行层体现列车在路网上的开行方式, 受限于路网基础设施和车底资源等条件, 但同时又必须满足客流的出行需求, 列车的开行带动客流在路网上运输, 这三层结构既相互制约又相互影响. 列车流运行层中开行的列车可以看做是基础设施层上的负载, 客流出行层中的客流可视为列车流运行层上的负载[18]. 因此, 高速铁路网具备双重负载, 对运输需求和运力资源进行匹配是一种负载均衡的过程.


高速铁路的快速发展使得客流需求量增长迅猛, 旅客对出行的需求已不仅限于目的地的可达, 而对高铁服务水平和出行质量有了更高的要求, 旅行时间、换乘便捷性、乘车舒适度等都成为旅客选择出行方式时的制约因素. 同时, 随着高速铁路网的逐步形成, 旅客在同一起讫点之间的可选出行路径增多, 径路方案与停站方案呈现多样化特征, 影响运营特性的因素和制约运营效益的条件也在增多, 从而使得高速铁路运输组织难度加大. 当前铁路部门在设计开行方案时主要依赖于人工经验, 耗时长、自动化水平较低、设计人员工作强度大, 因此自动化的开行方案设计方法研究亟待展开. 此外, 我国的高速铁路网作为一种异质性网络, 尚存在着路网空间分布不均衡、网络拓扑结构复杂、不同区域旅客出行需求差异大、不同车站作业强度相差大等特点. 因此, 对有限的运力资源进行合理调度, 实现运输需求与运力资源的匹配具有重要研究意义.


本文针对高速铁路网络化运营条件下开行方案优化方法与评估体系展开研究. 首先提出负载均衡指标来表征网络中不同节点作业强度的差异性, 以经济效益、社会效益和运营效益为目标构建多目标优化模型, 并设计两阶段求解算法对该模型进行求解; 进一步结合运输指标与网络指标构建开行方案综合评估指标体系. 基于中国高速铁路网络数据仿真验证表明基于负载均衡优化后的开行方案能够提高运输组织与客流需求、路网条件和运输资源的匹配性, 为我国高速铁路网的发展以及网络运营组织优化提供理论基础和依据.



14

基于原型学习与深度特征融合的脑功能连接分类方法研究

梁玉泽, 冀俊忠


近年来, 基于深度学习的脑功能连接分类方法已成为一个研究热点. 为了进一步提高脑功能连接的分类准确率, 获得与疾病相关的鉴别性特征, 本文提出了一种基于原型学习与深度特征融合的脑功能连接分类方法. 该方法首先使用栈式自编码器从脑功能连接中提取从低层次到高层次的深度特征; 然后利用原型学习在自编码器的各隐层中提取表示样本类别信息的距离特征; 最后采用深度特征融合策略将这些距离特征融合, 并将该融合特征用于脑功能连接的类别标签预测. 在ABIDE数据集上的实验结果表明, 与其他同类方法相比, 该方法不仅具有较高的分类准确率, 而且能够更加准确地定位与疾病相关的脑区.


梁玉泽, 冀俊忠. 基于原型学习与深度特征融合的脑功能连接分类方法研究. 自动化学报, 2022, 48(2): 504−514 doi: 10.16383/j.aas.c190747

Liang Yu-Ze, Ji Jun-Zhong. Brain functional connection classification method based on prototype learning and deep feature fusion. Acta Automatica Sinica, 2022, 48(2): 504−514 doi: 10.16383/j.aas.c190747

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190747?viewType=HTML


人类大脑是一个高度复杂的系统, 通过脑区之间的互相协作来完成特定任务. 这种协作方式可以通过定量地分析静息态功能磁共振成像(Resting-state functional magnetic resonance imaging, rs-fMRI)数据来表达, 该表达称为功能连接. 已有研究表明, 精神障碍疾病与患者脑区之间功能连接的异常改变密切相关[1]. 因此, 对脑功能连接分类的研究有助于揭示脑疾病的致病原因, 具有十分重要的现实意义.


目前脑功能连接分类方法主要分为两种: 基于传统机器学习的分类方法和基于深度学习的分类方法. 基于传统机器学习的分类方法使用浅层模型分析脑功能连接, 其中支持向量机(Support vector machine, SVM)[2-3]和套索算法(Least absolute shrinkage and selection operator, LASSO)是两种最常用的算法. 虽然传统的机器学习方法已经表现出较好的分类效果, 但是受限于浅层结构, 特征表达能力不足, 分类准确率有待进一步提升. 与传统机器学习方法相比, 深度学习方法具有更强的特征提取能力, 能够系统地从脑功能连接中提取从低层次到高层次的特征. 其中, 栈式自编码器(Stacked autoencoders, SAE)结构简单, 能够逐层提取数据中深层次的特征, 是脑功能连接分类任务中最常用的深度学习方法之一[4-5]. 此外, 有研究将卷积神经网络(Convolutional neural network, CNN)应用于脑功能连接分类任务, 针对脑功能连接的特点设计了多种网络结构, 取得了不错的效果[6-7]. 不过, 基于深度学习的脑功能连接分类准确率仍存在进一步的提升空间.


近年来, 有研究发现, 在分类时综合利用深度模型提取的不同层次的特征, 相比于仅使用最高层次的特征能够提升分类效果. Sun等[8]使用CNN来提取人脸特征, 将其用于人脸分类任务. 该方法将CNN中最后一个池化层与全连接层提取的特征拼接起来, 作为最终的特征表示, 在分类时充分考虑了不同层次特征中的信息, 与一些代表性的方法相比具有较高的分类准确率. 张婷等[9]在传统CNN 的基础上引入了跨层连接思想, 将CNN中第二个池化层的特征跨越模型中间的隐层直接与全连接层连接起来, 最后使用该特征来预测样本类别. 该方法可以有效地将高层次特征和低层次特征结合起来, 在人脸性别分类任务中获得了比传统CNN更高的准确率. 李勇等[10]针对LeNet-5在表情识别中识别率不高的问题提出了一种基于跨连接LeNet-5网络的面部表情识别方法, 该方法能够将神经网络提取的低层次特征和高层次特征融合, 提高了表情识别率. 最近, 又有研究表明, 将原型学习与深度学习结合能够提取到类内差异小, 类间差异大的鉴别性特征. Yang等[11] 将原型学习与CNN结合, 提出了卷积原型学习, 该模型能够显著缩小CNN提取到的特征的类内差异, 提高了CNN的鲁棒性. Wang等[12]提出了一种基于原型学习的原型集成方法, 该方法不仅能够缩小深度特征的类内差异, 而且能够扩大类间差异, 从而提高了增量学习中新类别的检测的鲁棒性. Zhang等[13]提出了模态缺失情况下的深度编码及分类模型(Cross partial multi-view networks, CPM-Nets), 该模型充分利用完备信息编码和原型分类思想, 提高了模态缺失情况下多模态数据的分类性能. 可见, 将原型学习与深度学习结合用于脑功能连接分类任务, 并且在分类阶段综合利用深度模型提取到的不同层次的特征, 将有望在获得与疾病相关的鉴别性特征的同时进一步提升分类准确率.


为了进一步提高脑功能连接的分类效果, 本文提出基于原型学习与深度特征融合的脑功能连接分类方法. 与CPM-Nets 不同的是,本文使用的数据为单一模态, 并不涉及模态缺失的情况; 此外本文所提方法还探索了深度模型中不同层次的特征对分类性能的影响. 具体来说, 首先, 利用SAE提取脑功能连接中不同层次的特征; 然后, 使用原型学习在SAE的每个隐层中提取表示样本类别信息的距离特征; 最后, 利用提出的深度特征融合策略将提取到的距离特征融合, 并将该融合特征用于类别标签预测. 在ABIDE数据集上的实验结果表明, 本文所提方法不仅提升了脑功能连接的分类准确率, 而且能够根据模型提取到的鉴别性特征更加准确地定位与精神障碍疾病相关的脑区.



15

非线性快速批次过程高效迭代学习预测函数控制

马乐乐, 刘向杰


迭代学习模型预测控制(Iterative learning model predictive control, ILMPC)具备较强的批次学习能力及突出的时域跟踪性能, 在批次过程控制中发挥了重要作用. 然而对于具有强非线性的快动态批次过程, 传统的迭代学习模型预测控制很难实现计算效率与跟踪精度之间的平衡, 这给其应用带来了挑战. 对此本文提出一种高效迭代学习预测函数控制策略, 将原非线性系统沿参考轨迹线性化得到二维跟踪误差预测模型, 并在控制器设计中补偿所产生的线性化误差, 构造优化目标函数为真实跟踪误差的上界. 为加强优化计算效率, 在时域上结合预测函数控制以降低待优化变量维数, 从而有效降低计算负担. 结合终端约束集理论, 分析了迭代学习预测函数控制的时域稳定性及迭代收敛性. 通过对无人车和典型快速间歇反应器的仿真实验验证所提出算法的有效性.


马乐乐, 刘向杰. 非线性快速批次过程高效迭代学习预测函数控制. 自动化学报, 2022, 48(2): 515−530 doi: 10.16383/j.aas.c190621

Ma Le-Le, Liu Xiang-Jie. A high efficiency iterative learning predictive functional control for nonlinear fast batch processes. Acta Automatica Sinica, 2022, 48(2): 515−530 doi: 10.16383/j.aas.c190621

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190621?viewType=HTML


随着现代工业中产品种类的增多和市场需求变化的加快, 批次生产过程占据越来越重要的地位[1]. 这类生产过程通常需要按照一定顺序对原料进行加工, 并进行重复操作来获得成批同类产品[2]. 批次过程具有“多重时变”的特点[1], 其控制任务通常为重复地以高精度跟踪参考轨迹. 经典控制理论多基于连续生产过程中的调节问题, 难以在批次过程中取得理想的控制效果. 因此, 发展适应批次过程特点的特殊控制算法具有重要理论意义和应用价值.


迭代学习控制(Iterative learning control, ILC)作为一种智能控制方法, 可以通过迭代功能不断调整控制输入以提高跟踪性能, 这与批次过程的结构十分契合, 因此被广泛应用于批次过程控制[3-4]. 然而, ILC是典型的开环控制, 难以保证时域鲁棒性和闭环稳定性, 限制了其在实际工业中的应用. 模型预测控制(Model predictive control, MPC)作为一项成熟的先进控制技术[5], 具有较强的闭环性能, 在工业应用中取得了令人瞩目的成果[6]. 结合ILC和MPC的优点, 构造迭代学习模型预测控制(Iterative learning model predictive control, ILMPC)成为解决批次过程控制问题的有效方法[7]. 在过去十几年间, ILMPC理论得到了长足的发展. 控制模型由易于推导的输入输出模型[8-9], 推广到二维状态空间模型[10-11], 学习机制也得到了诸多改善[12], 衍生了许多解决不确定性、随机扰动、变参考轨迹等具体问题的ILMPC算法[13-15].


在实际生产中, 存在许多具有快动态的批次过程, 如工业机器人[16]、 运载工具[17]以及部分化学反应器[18]. 这些批次过程的采样时间通常为秒级甚至毫秒级, 对控制器的计算效率提出了较高要求. 由于实际批次过程具有较强的非线性, 传统的ILMPC需要在每个采样时刻求解复杂的非凸序列二次规划(Sequence quadratic programming, SQP)[19]问题, 导致在线计算负担较大, 寻优时间较长. 通过线性化方法获得更为简单的线性模型, 可以有效提高优化求解的速度. 轨迹线性化方法将非线性系统沿参考轨迹在每个采样点上进行线性化, 得到相应的线性时变(Linear time varying, LTV)模型, 将轨迹跟踪问题转化为跟踪误差调节问题[20]. 其线性化误差可以通过李普希兹条件转化为预测状态误差, 从而可获得真实跟踪误差的上界. 将此上界作为优化目标函数, 就能够在提高控制效率的同时保证系统的跟踪精度.


传统MPC结构中, 在每个采样时刻需要求解整个控制时域内的输入变量序列, 其优化问题的自由度为控制输入维数与控制时域长度的乘积. 复杂工业过程中, 被控系统通常是多输入系统, 且需要选取较长的控制时域以保证跟踪性能, 所以传统MPC的在线优化问题自由度较大, 计算负担较重. 相比较而言, 预测函数控制(Predictive functional control, PFC)[21]作为第三代模型预测控制技术, 在提高计算效率方面具有突出优势. 它将控制输入表示为几个基函数的加权和, 从而将复杂的输入序列求解问题转化为更为简单的权重系数求解问题, 有效降低待优化变量的维数, 减小计算负担. 在时域上结合PFC算法, 构建一类特殊结构的迭代学习模型预测控制, 即迭代学习预测函数控制(Iterative learning predictive functional control, ILPFC), 可以实现对快速批次过程的高效控制[22]. 但是, 随着计算效率的提高, 采用PFC算法同时也会带来可行域缩减的问题, 可能会导致控制输入最优性的下降, 进而影响系统的跟踪精度. 针对此问题, 可以通过选择合适的基函数结构, 使最优解包含于ILPFC的可行域内, 来确保ILPFC的跟踪精度. 从而实现计算效率和跟踪精度间的平衡.


除了保证控制系统高效性与准确性, 如何在时域和迭代域上都实现良好的闭环性能也是ILMPC设计中的一个关键问题. ILMPC具有典型的二维控制结构, 其中MPC沿时间轴实施滚动时域优化, ILC沿批次轴通过学习过程数据提高跟踪精度. 因此需要同时保证时域稳定性以及迭代收敛性. 本文所构建的ILMPC针对线性化误差问题, 构造真实跟踪误差的上界为优化目标函数. 该目标函数可以代表实际非线性系统的跟踪误差能量, 在稳定性分析中充当Lyapunov函数. 进而, 本文所设计的ILMPC非线性控制系统的稳定性可以通过引入终端约束集[23]来保证. 但由于LTV预测模型的采用, 经典终端约束集理论中的稳定性条件需要相应地扩展为时变的形式. 基于ILMPC的二维结构, 可以从时域稳定性推导出迭代收敛性.


本文首先针对非线性批次过程, 基于轨迹线性化模型构建一种具有终端约束的ILMPC策略, 采用真实跟踪误差的范数上界作为优化目标函数. 在此基础上, 通过引入特殊结构的MPC, 即PFC算法, 建立一种高效稳定的ILPFC策略, 实现对非线性批次过程的快速、精确的轨迹跟踪控制. 在二维框架下, 基于Lyapunov稳定性理论定性分析所设计的ILMPC/ILPFC算法的稳定性和收敛性问题. 通过无人车及典型快速间歇反应器的仿真验证了所提出ILPFC策略的有效性.



16

基于文本与图像的肺疾病研究与预测

吕晴, 赵奎, 曹吉龙, 魏景峰


通过对目前现有的肺癌检测技术研究, 发现大部分研究人员主要针对肺癌(Computed tomography, CT)影像进行研究, 忽略了电子病历所隐藏的肺癌信息, 本文提出一种基于图像与文本相结合的肺癌分类方法, 从现有的基于深度学习的肺癌图像分类出发, 引入了电子病历信息, 使用Multi-head attention以及(Bi-directional long short-term memory, Bi-LSTM)对文本建模. 实验结果证明, 将电子病历信息引入到图像分类模型之后, 对模型的性能有进一步的提升. 相对仅使用电子病历进行预测, 准确率提升了大约14 %, 精确率大约提升了15 %, 召回率提升了14 %. 相对仅使用肺癌CT影像来进行预测, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %.


吕晴, 赵奎, 曹吉龙, 魏景峰. 基于文本与图像的肺疾病研究与预测. 自动化学报, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645

Lv Qing, Zhao Kui, Cao Ji-Long, Wei Jing-Feng. Research and prediction of lung diseases based on text and images. Acta Automatica Sinica, 2022, 48(2): 531−538 doi: 10.16383/j.aas.c190645

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190645?viewType=HTML


模态是指人接受信息的特定方式, 由于多媒体数据往往是多种信息的传递媒介, 多模态学习已逐渐发展为多媒体内容分析和理解的主要手段. 在医学领域, 也有研究者应用多模态学习. 针对Alzheimer病, 韩坤等[1]提出结合磁共振图像(Magnetic resonance imaging, MRI)和正电子发射型计算机断层显像(Positron emission computed tomography, PET)图像模态的特征信息相融合的方法, 实验结果表明该方法在准确率上取得了较好的成绩. 为了解决传统模态医学图像缺陷, 张淑丽等[2]提出了自由变形法对多模态的医学图像进行融合. 然而大多数研究人员主要融合多模态的医学图像, 没有加入电子病历等文本模态的数据. 调查发现, 肺癌是世界发病率和死亡率最高的疾病之一[3]. 病人在进行肺疾病诊断时, 需要CT检查, 影像科医生对CT影像进行检查描述, 但在实际的诊断和治疗过程中, 常常是由主治医生根据检查描述以及CT影像进行进一步的判断. 这一过场不仅增加了主治医生的工作量, 也导致了医疗资源的不合理应用.


基于此, 本文在影像CT基础上, 融入影像医生对CT影像描述的文本信息, 以及一些其他检验结果(比如癌胚抗原测定、鳞状上皮细胞癌抗原测定等), 构建深度学习模型对肺疾病进行预测, 将影像医生给出的CT影像和检查描述以及其他检验结果输入到模型中, 对疾病进行判别并给出得病概率, 患病概率大的病人则交由主治医生更进一步地诊断和治疗, 以减轻主治医生的工作量, 提高工作效率.



17

基于两阶段自适应Wiener过程的剩余寿命预测方法

董青, 郑建飞, 胡昌华, 李冰, 牟含笑


针对退化过程呈现两阶段特征的一类随机退化设备, 现有剩余寿命预测方法不适用于测量间隔分布不均匀、监测数据的测量频率与历史数据频率不一致的情况, 并且忽略了自适应漂移的可变性. 鉴于此, 提出了一种新的考虑个体差异性的两阶段自适应Wiener过程剩余寿命预测模型与方法. 首先, 基于自适应Wiener过程分阶段构建随机退化模型, 在首达时间意义下推导出寿命和剩余寿命解析式. 然后, 结合Kalman滤波技术和期望最大化算法进行参数自适应更新, 同时利用赤池信息准则实现退化模型变点的辨识. 最后, 通过蒙特卡洛仿真和锂电池实例, 验证了本文所提方法的有效性和实用价值.


董青, 郑建飞, 胡昌华, 李冰, 牟含笑. 基于两阶段自适应Wiener过程的剩余寿命预测方法. 自动化学报, 2022, 48(2): 539−553 doi: 10.16383/j.aas.c210057

Dong Qing, Zheng Jian-Fei, Hu Chang-Hua, Li Bing, Mu Han-Xiao. Remaining useful life prognostic method based on two-stage adaptive wiener process. Acta Automatica Sinica, 2022, 48(2): 539−553 doi: 10.16383/j.aas.c210057

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210057?viewType=HTML


随着高新技术的迅猛发展, 现代工业设备正朝着大型化、复杂化和智能化趋势快速发展. 这类设备在运行过程中由于受到内部和外部因素的随机影响, 性能和健康状态不可避免地呈现下降趋势乃至退化失效, 导致无法完成正常任务和功能, 进而引发严重事故, 造成环境破坏和人员伤亡[1-3]. 如果能在设备性能退化初期对其进行剩余寿命预测(Remaining useful life, RUL), 并基于预测结果确定维修决策的最佳时机, 制定相应的备件订购或替换策略, 将有效提高设备运行可靠性、降低运行成本. 近年来, 预测与健康管理技术(Prognostics and health management, PHM)得到广泛关注和应用, 已经成为可靠性领域的热点研究方向, 而PHM技术的关键在于预测运行设备的剩余寿命. 因此, 如何得到精确且符合实际情况的剩余寿命, 对切实保障系统的运行安全性、可靠性与经济性具有重要的意义[4-7].


经过几十年的发展, RUL预测取得了丰硕的理论成果并得到广泛应用. 袁烨等[8]将寿命预测研究主要分为模型方法和数据驱动方法. 数据驱动方法主要包括统计方法和机器学习方法, 基于设备大量退化数据推导退化模型, 进而判断超过失效阈值的时间预测剩余寿命, 如: 最小二乘方法、支持向量机方法和深度学习方法等. 模型方法分为物理退化模型(机理建模)和经验退化模型. 相比于物理退化模型, 经验退化模型能通过随机模型对监测数据建模, 进而得到寿命或剩余寿命的概率分布, 便于量化寿命或剩余寿命的不确定性, 从而为健康管理奠定基础, 更加适用于现代复杂工业设备. 而在经验退化模型中, Wiener过程和Gamma过程是两种最常用随机过程退化建模的方法. Gamma过程是一种增量非负的单调过程, 主要适用于单调退化过程, 如磨损过程、疲劳扩展过程. 但在工程实际中, 设备的退化过程大多为非单调, 如锂电池容量退化、惯性平台陀螺仪的退化等. Wiener过程作为非单调退化过程, 凭借良好的数学特性, 在RUL预测和健康管理领域得到广泛应用.


近年来, 大多数基于Wiener过程退化建模方法普遍假设系统在退化过程中是一种遵循单一阶段的随机退化模型. 但在工程实际中, 由于受到内部因素(如: 退化机理突变)或外部因素(如: 动态环境、状态切换等)的影响, 许多设备的退化特性呈现出两阶段乃至多阶段退化特征[9]. 例如锂电池[10]开始时经历一个平稳退化期, 随着充放电的进行, 固体电解质层在电极上的生长以及副反应导致的活性材料的损失, 导致锂电池容量在后一阶段迅速衰落; 液力耦合器[11]开始时经历一个快速退化期, 当到达某一时刻(变点)退化速度明显下降, 与之类似的还有半导体激光器[12]、等离子显示板[13-14]等.


对于这种存在变点、呈现两阶段退化特性的设备进行退化建模和RUL预测, 已有不少学者进行了研究和拓展. Ng[12]根据退化数据的两阶段特性, 提出一种基于单个变点独立增量的两阶段随机退化模型, 并采用期望最大化(Expectation maximization, EM)算法对模型参数进行估计. Yan等[15]基于两阶段Wiener过程模型对液力耦合器进行可靠性校验, 并根据赤池信息准则(Schwarz information criterion, SIC)对变点进行辨识. Chen等[16]改进两阶段线性对数模型来描述滚球轴承的分阶段退化过程, 并用贝叶斯方法更新模型参数进行寿命估计. Wang等[17]提出了一种两阶段退化模型用于轴承退化数据的建模, 在第一段假设处于健康状态, 在第二段结合卡尔曼滤波和EM算法进行RUL估计. Peng等[18]为了提高RUL预测的鲁棒性和效率, 开发了一种半解析预测模型, 该模型可以避免RUL预测的大幅度波动, 自动跟踪不同的退化阶段, 并自适应地更新超参数. Zhang等[19]在两阶段Wiener过程退化模型的框架下, 推导出基于首达时间意义的寿命分布, 该模型优势在于充分考虑并量化变点处退化量的不确定性同时能够推广至更具有一般性的多阶段退化模型中.


尽管两阶段以及多阶段退化模型已经取得了一些理论与实际应用成果, 但仍存在一些问题有待解决. 目前大多数两阶段退化模型(如: Zhang等[19])都是基于Wang等[20]所提出的一阶自回归模型进行建模, 但该模型存在三点不足: 1) 假设噪声项是独立且均匀分布, 并且仅适用于均匀测量间隔. 由于不是自动测量或根据某些设计方案进行测量等原因, 在工程实际中设备退化过程的测量间隔往往是不均匀的; 2) 当使用多组同类型退化设备的历史数据或先验信息估计模型未知参数时, 必须要求监测数据的测量频率与历史数据中的测量频率相同. 否则, 历史数据将不再适用; 3) 该模型退化建模存在一个潜在假设, 即在后一时刻估计的随机参数与前一时刻的随机参数的后验估计完全相等, 并且当该模型用于RUL预测时, 使用最新的监测值来更新漂移系数, 该漂移系数从最后监测点开始保持不变, 直到系统发生故障. 这意味着该模型假设可以根据实时监测数据自适应更新漂移系数, 但在未来的RUL预测中忽略这种自适应漂移可变性.


针对上述问题, 本文提出了一种基于自适应Wiener过程的两阶段退化模型, 突破测量间隔固定和采样频率一致的要求限制, 同时考虑对表征退化个体差异性的漂移系数实现自适应更新. 在首达时间意义下, 推导出两阶段自适应Wiener过程模型的RUL分布解析式, 结合EM算法和Kalman滤波技术对模型参数进行估计和更新, 并基于SIC实现退化变点辨识, 最后通过锂电池的实例研究验证了本文所提方法可有效实现两阶段退化设备的RUL预测.



18

基于RefineNet的端到端语音增强方法

蓝天, 彭川, 李森, 钱宇欣, 陈聪, 刘峤


为提高神经网络对语音信号时域波形的直接处理能力, 提出了一种基于RefineNet的端到端语音增强方法. 本文构建了一个时频分析神经网络, 模拟语音信号处理中的短时傅里叶变换, 利用RefineNet网络学习含噪语音到纯净语音的特征映射. 在模型训练阶段, 用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility, STOI)与信源失真比(Source to distortion ratio, SDR)融入到训练的损失函数. 在与具有代表性的传统方法和端到端的深度学习方法的对比实验中, 本文提出的算法在客观评价指标上均取得了最好的增强效果, 并且在未知噪声和低信噪比条件下表现出更好的抗噪性.


蓝天, 彭川, 李森, 钱宇欣, 陈聪, 刘峤. 基于RefineNet的端到端语音增强方法. 自动化学报, 2022, 48(2): 554−563 doi: 10.16383/j.aas.c190433

Lan Tian, Peng Chuan, Li Sen, Qian Yu-Xin, Chen Cong, Liu Qiao. RefineNet-based end-to-end speech enhancement. Acta Automatica Sinica, 2022, 48(2): 554−563 doi: 10.16383/j.aas.c190433

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190433?viewType=HTML


语音增强的主要目标是从含噪语音中提取原始纯净语音信号, 通过抑制或分离噪声来提升语音感知质量与可懂度, 在语音信号通信、助听器和自动语音识别等领域有着广泛的应用. 经过几十年的发展, 众多语音增强算法相继被提出, 经典的语音增强技术主要包括谱减法、维纳滤波法、基于统计模型的方法以及基于子空间的方法等, 这些方法往往基于噪声平稳或缓变的假设, 在高度非平稳的噪声情况下增强效果会急剧恶化[1-2]. 深度学习[3]的兴起以及在声学建模领域的成功应用, 为解决复杂环境下的语音增强提供了思路. 根据网络学习的目标不同, 基于神经网络的语音增强主要分为基于时频掩蔽的方法与基于特征映射的方法. 基于时频掩蔽的方法将纯净语音与噪声之间的相互关系作为学习目标, 将得到的时频掩蔽估计作用于含噪语音上, 并经由逆变换技术合成增强语音的时域波形. Wang等[4]将深度神经网络(Deep neural networks, DNN)引入语音分离与降噪领域, 通过前馈DNN估计理想二值掩蔽(Ideal binary mask, IBM); 随后, Narayanan等[5]提出在梅尔谱域估计理想浮值掩蔽(Ideal ratio mask, IRM), 在一定程度上提高了语音识别的鲁棒性; Williamson等[6]也提出复数理想浮值掩蔽(Complex ideal ratio mask, cIRM), 并使用DNN同时估计cIRM的实部和虚部, 显著提高了语音的可懂度. 基于特征映射的方法利用神经网络学习含噪语音和纯净语音之间的复杂映射关系. Xu等[7]把深层神经网络视为一个回归模型, 使用带受限玻尔兹曼机(Restricted Boltzmann machine, RBM)预训练的DNN将含噪语音的对数功率谱映射到纯净语音的对数功率谱上; Park等[8]提出冗余卷积编解码网络, 通过删去池化层、加入跳跃连接的方式优化训练过程, 将卷积神经网络(Convolutional neural network, CNN)应用于频谱映射. 这两类方法通常需要将时域波形变换到时频域处理信号的幅度谱或功率谱, 往往会忽略掉语音信号中的相位信息.


基于端到端的语音增强方法不依赖于频域表示, 可以有效地利用时域信号的相位信息, 避免了信号在时域和时频域之间来回切换, 简化处理流程. Qian等[9]考虑到WaveNet[10]对语音波形的强大建模能力, 提出将语音先验分布引入到WaveNet框架进行语音增强; Rethage等[11]也在WaveNet的基础上开展语音增强研究, 通过非因果的(Non-causal)扩张卷积来预测目标, 在主观评价指标上取得了比维纳滤波更好的效果. Pascual等[12]将生成对抗网络[13-14] (Generative adversarial nets, GAN)引入语音增强领域并提出SEGAN (Speech enhancement generative adversarial network), 并用其对时域波形信号直接处理, 取得了一定的增强效果, 但是在客观评价指标语音质量感知评价(Perceptual evaluation of speech quality, PESQ)上略低于维纳滤波. Fu等[15-16]提出全卷积神经网络并将其作用于整句语音波形信号, 提升了语音增强的性能. 这些基于端到端的方法都是直接将一维时域波形映射到目标语音, 然而时域波形信号本身并不能表现出明显的特征结构信息, 直接对时域信号建模比较困难, 而且低信噪比环境下信号更复杂, 建模难度会进一步提高. 有学者考虑将神经网络作为前端短时傅立叶变换(Short-time Fourier transform, STFT)替代方案[17-19], 我们在其基础上修改扩展, 提出了一个时频分析网络来模拟STFT变换过程的基函数, 将一维时域信息映射到一个类似于时频表示的高维空间中以获取更多的信息; 相比于常见的神经网络方法中使用时频域幅度谱或功率谱值的方式, 时频分析网络能更充分地利用输入信号中的相位信息.


语音和噪声信号在时域相邻帧以及频域相邻频带间具有很强的相关性, 这种时频域的局部相关性与图像中的相邻像素间的相关性非常相似. 由于在语音增强领域使用卷积神经网络可以获得与深度神经网络和循环神经网络(Recurrent neural network, RNN)相当或更好的增强效果[8, 20-22], 为进一步提高语音增强的性能, 本文考虑使用卷积神经网络中的一种重要网络 — RefineNet[23]来进行端到端的语音增强. 它是一个通用的多路径优化网络, 通过显式利用下采样过程中的所有可用信息, 并使用较长范围的残差连接来实现高分辨率预测. 通过这种方式, 可以利用前期卷积的细粒度特性捕获更深层的高级特征; RefineNet的各个组件使用了带有Identity mappings[24]的残差连接, 这样梯度就可以通过不同跨度的残差连接直接传播, 从而实现高效的端到端训练.


在语音增强领域的神经网络训练过程中, 通常将均方误差(Mean square error, MSE)作为损失函数, 而在客观评价中往往使用PESQ或STOI等评价指标, 这种损失函数与评价指标之间的差异性并不能保证训练后的模型在应用中能够提供最优的性能; Fu等[16]和Zhao等[25]将STOI评价指标融入到了损失函数中, 一定程度上提高了语音增强性能. 受此启发, 我们提出将STOI和SDR同时融入到损失函数中, 并且采用多目标联合优化策略, 利用神经网络根据不同目标之间的共性和差异性建模.


本文提出了基于RefineNet的端到端语音增强模型(RefineNet-based speech enhancement, RNSE), 首先利用时频分析网络模仿STFT, 学习时域波形在模拟的二维时频空间表示; 然后利用RefineNet整合不同大小特征图的能力, 对不同粒度的模拟时频空间特征进行综合分析; 最后通过时频分析网络逆处理得到增强语音的估计. 在训练阶段, 我们将STOI与SDR评价指标融入到损失函数中进行联合优化, 从而得到更好的增强效果.



19

融合属性特征的行人重识别方法

邵晓雯, 帅惠, 刘青山


行人重识别旨在跨监控设备下检索出特定的行人目标. 由于不同的行人可能具有相似的外观, 因此要求行人重识别模型能够捕捉到充足的细粒度特征. 本文提出一种融合属性特征的行人重识别的深度网络方法, 将行人重识别和属性识别集成在分类网络中, 进行端到端的多任务学习. 此外, 对于每张输入图片, 网络自适应地生成对应于每个属性的权重, 并将所有属性的特征以加权求和的方式结合起来, 与全局特征一起用于行人重识别任务. 全局特征关注行人的整体外观, 而属性特征关注细节区域, 两者相互补充可以对行人进行更全面的描述. 在行人重识别的主流数据集DukeMTMC-reID和Market-1501上的实验结果表明了本文方法的有效性, 平均精度均值(Mean average precision, mAP)分别达到了74.2%和83.5%, Rank-1值分别达到了87.1%和93.6%. 此外, 在这两个数据集上的属性识别也得到了比较好的结果.


邵晓雯, 帅惠, 刘青山. 融合属性特征的行人重识别方法. 自动化学报, 2022, 48(2): 564−571 doi: 10.16383/j.aas.c190763

Shao Xiao-Wen, Shuai Hui, Liu Qing-Shan. Person re-identification based on fused attribute features. Acta Automatica Sinica, 2022, 48(2): 564−571 doi: 10.16383/j.aas.c190763

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190763?viewType=HTML


行人重识别指跨监控设备下的行人检索问题, 在公共安全、智能监控等领域具有广泛的应用. 具体而言, 给定一张行人图片, 行人重识别用来在其他摄像头拍摄的大型图片库中找出该行人的图片. 由于监控图片的分辨率低, 且不同的图片之间存在光照、姿态、摄像头视角等方面的差异, 行人重识别目前仍是一个很有挑战性的问题.


20

有界扰动下约束非线性系统鲁棒经济模型预测控制

何德峰, 韩平, 王青松


针对未知但有界扰动下约束非线性系统, 提出一种新的鲁棒经济模型预测控制(Economic model predictive control, EMPC)策略, 保证闭环系统对扰动输入具有输入到状态稳定性(Input-to-state stability, ISS). 基于微分对策原理, 分别优化经济目标函数和关于最优经济平衡点的鲁棒稳定性目标函数, 其中经济最优性与鲁棒稳定性是具有冲突的两个控制目标. 利用鲁棒稳定性目标最优值函数构造EMPC优化的隐式收缩约束, 建立鲁棒EMPC的递推可行性和闭环系统关于最优经济平衡点相对于有界扰动输入到状态稳定性结果. 最后以连续搅拌反应器为例, 对比仿真验证本文策略的有效性.


何德峰, 韩平, 王青松. 有界扰动下约束非线性系统鲁棒经济模型预测控制. 自动化学报, 2022, 48(2): 572−581 doi: 10.16383/j.aas.c190879

He De-Feng, Han Ping, Wang Qing-Song. Robust economic MPC of constrained nonlinear systems with bounded disturbances. Acta Automatica Sinica, 2022, 48(2): 572−581 doi: 10.16383/j.aas.c190879

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190879?viewType=HTML


近年来, 经济模型预测控制(Economic model predictive control, EMPC)在工业界和学术界引起了广泛关注[1-2]. 作为一种新近发展的先进控制技术, EMPC有望成为解决复杂系统节能、降耗和增效优化控制问题的重要手段, 目前已应用于能源、造纸、车辆等系统的能效优化控制[3-9]. 除具有常规模型预测控制 (Model predictive control, MPC)的显式处理约束和多变量控制的优点外, EMPC还能优化“经济”类目标函数, 通常这类函数不是设定值跟踪偏差的正定函数, 而是系统状态和控制变量的非凸或非正定函数[1-9]. 因此, 把以设定值跟踪偏差的正定函数为优化目标的常规MPC称为目标跟踪MPC, 而不以跟踪偏差的正定函数为优化目标的MPC统称为经济MPC[2]. 现有研究表明: 经济最优性目标与闭环系统的稳定性目标具有一定的冲突性[1-2], 因此近年来EMPC的稳定性综合策略得到了广泛研究.


为建立EMPC关于经济平衡点的稳定性, 一种主要方法是构造基于经济优化目标函数的Lyapunov函数[5, 10-17]. 例如, 使用终端等式约束和强对偶性假设, 定义经济目标函数的旋转代价函数并将其作为闭环系统的一个Lyapunov函数[10], 而引入广义终端等式约束[15], 建立了经济性能变化下的递推可行性与闭环系统的有界稳定性[11]. 进一步, 采用严格耗散性条件、终端不等式约束和终端代价函数代替, 降低了EMPC稳定性综合策略的保守性[12-13]. 在无终端约束EMPC策略中, 闭环轨迹在足够长的预测时域情况下收敛到平衡点的邻域[16-17]. 虽然无终端约束增大了闭环系统的吸引域, 但长时域预测将大大增加了在线优化的计算负担. 进一步, EMPC稳定性和经济性是一对存在冲突的控制目标[18-19], 且稳定性和经济性目标无法统一度量, 难以通过权重标定. 对此, 从多目标优化控制角度, 考虑非线性系统强对偶性或耗散性条件难以满足情况, 文献[20-21]通过构造稳定性收缩约束, 建立闭环系统关于最优经济平衡点的渐近稳定性.


实际系统总是存在不确定扰动, 现有EMPC策略通常难以保证受扰系统的可行性和稳定性. 对于目标跟踪MPC, 目前已有较多鲁棒稳定性结果[22-32], 主要包括本质鲁棒MPC[22]、Tube鲁棒MPC[24-25]以及min-max MPC[26-32]等, 其中min-max MPC采用微分对策原理, 在使最坏扰动输入情况下系统的性能指标上界达到最小. 相比于本质鲁棒MPC和Tube鲁棒MPC, min-max MPC能大大降低鲁棒MPC的保守性, 但会增加优化问题的在线计算量[1]. 为降低min-max MPC的在线计算量, 文献[30]采用仿射输入结构, 使MPC含有抑制扰动的闭环成分和易于求解的开环优化. 另一方面, 输入到状态稳定性(Input-to-state stability, ISS)成为分析不确定系统鲁棒稳定性的一个有效工具[23, 27-32], 并应用到了EMPC鲁棒性研究, 如文献[33-34]采用强对偶性假设和约束紧缩方法, 证明了周期性扰动下线性系统EMPC闭环收敛性, 文献[35]获得了非线性系统EMPC的有界稳定性结果, 提高了经济性能优化的灵活性, 文献[36]将稳定性目标和经济性目标相加, 证明EMPC线性系统关于经济目标的最大值是ISS的, 文献[37]施加保证鲁棒稳定性的显式收缩约束, 提出两种非线性系统鲁棒EMPC算法, 文献[38]提出Lipschitz连续非线性系统的隐式收缩鲁棒EMPC策略, 提高了系统的平均经济性能.


本文针对含有未知有界扰动的不确定非线性系统, 提出一种新的具有递推可行性以及ISS保证的鲁棒EMPC策略. 该策略明确考虑经济最优性和鲁棒稳定性控制目标的矛盾特点, 采用微分对策原理在线滚动优化计算这对冲突目标的min-max问题. 离线计算最优经济平衡点, 并利用状态与该平衡点的偏差定义鲁棒稳定性目标函数, 而经济目标函数则由系统的经济性能给定. 通过特殊设计EMPC优化问题的隐式收缩约束, 并在鲁棒稳定性目标优化问题中引入一个新约束, 保证EMPC优化的递推可行性和闭环系统关于不确定扰动输入的ISS. 相比现有鲁棒EMPC策略, 本文首先建立了约束非线性系统具有ISS的鲁棒EMPC策略; 其次, EMPC递推可行性和鲁棒稳定性无需强对偶性或耗散性假设条件, 从而扩大了鲁棒 EMPC的应用范围; 最后, 采用微分对策原理得到了保守性更低的容许扰动上界. 采用一个受扰非线性连续搅拌釜反应器(Continuous stirred tank reactor, CSTR)的仿真实例, 验证本文提出策略的有效性与优越性.



21

基于局部空间信息的可变类模糊阈值光学遥感图像分割

杨蕴, 李玉, 赵泉华


阈值法分割在光学遥感图像分析中被得到广泛的应用, 然而传统阈值法也存在诸多局限性, 如对噪声敏感, 需人为设定类别数, 计算复杂度高等. 针对传统阈值法的局限性, 提出一种基于局部空间信息的可变类模糊阈值光学遥感图像分割方法. 首先, 以图像光谱的一阶矩为初始类中心, 利用二分法原理和区域间最大相似度准则来快速确定类别数及其中心. 然后, 通过岭形模糊隶属函数计算各像素点对不同类的隶属程度, 同时考虑到像素点的隶属度局部空间信息, 在隶属度域中定义一个模糊加权滤波器对各类的隶属度矩阵进行滤波, 以滤波后的隶属度集合为依据, 按照最大隶属原则确定图像的标号场. 最后, 对标号场中的局部异常标号进行替换, 将修正后的标号场由对应的类中心赋色得到分割图像. 视觉和统计分析评价结果表明, 与传统阈值法相比, 该方法能在减少计算时间的同时获得更好的分割结果, 可适用于光学遥感图像的多阈值分割.


杨蕴, 李玉, 赵泉华. 基于局部空间信息的可变类模糊阈值光学遥感图像分割. 自动化学报, 2022, 48(2): 582−593 doi: 10.16383/j.aas.c190412

Yang Yun, Li Yu, Zhao Quan-Hua. Fuzzy threshold optical remote sensing image segmentation with variable class number based on local spatial information. Acta Automatica Sinica, 2022, 48(2): 582−593 doi: 10.16383/j.aas.c190412

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190412?viewType=HTML


随着遥感图像分辨率的提高, 其在人们生活中的使用比例越来越大, 如何快速、精确地从其中提取目标信息已成为遥感领域的一个重要研究课题[1]. 分辨率的提高在带来信息丰富的同时也给目标分析带来巨大困难, 而图像分割技术通过给每个像素分配标签, 使同一标签的像素具有相同的视觉特性, 可提高图像分析的效率[2]. 因此执行图像分割用于更好描述图像是由图像处理到图像分析的关键步骤, 对于遥感图像目标的高效分析具有重要意义.


现有图像分割方法大致可分为四类: 基于区域[3]、边缘[4]、学习分类[5]和阈值[6] 的方法. 其中, 区域法的优点是对噪声不敏感, 但需要制定合适且高效的相似性准则, 易造成图像过分割; 而单纯基于边缘检测的方法往往不能提供较好的区域结构; 学习分类法利用大量的训练样本能较好地解决图像中的噪声和均匀问题, 但目前存在网络模型难以确定, 易出现欠学习和局部最优等问题[7-8]; 阈值法具有简单易行、性能稳定等优点[9], 目前流行的阈值方法有Otsu法[10]、最大熵法[11]和聚类法[12]等, 这些方法基于不同准则来选取阈值, 都具有各自的优点, 但也有自身的缺点. Otsu和最大熵法分别以分割后图像的类间方差和熵最大为目标函数, 穷举选取使目标函数获得最大值的阈值, 但其仅考虑像素本身对分割结果的影响, 对噪声和异常值敏感[13]. 为此, 人们引入邻域像素进行二维阈值化, 在一定程度上减弱了噪声和异常值对分割结果的影响, 但存在信息损失严重、耗时过长等缺点, 特别是在多阈值图像分割中更为突出[14]. 聚类法是一种不依赖于分类的先验知识, 遵循同质性准则对像素划分的方法, 能够有效分离具有全局特征的数据[15], 其中最具代表是Kmeans和模糊C 均值(Fuzzy C-means, FCM)算法. Kmeans算法以欧氏距离作为相似度测度, 以误差平方和为聚类准则函数, 迭代计算使得准则函数收敛为止[16]. 它具有简单、计算快速等优点, 但其强制图像的各个像素属于特定的类别, 使得对具有复杂场景的遥感图像的分割结果很差. FCM 方法利用模糊集理论中的隶属函数对每个像素点进行划分, 考虑了模糊性和不确定性, 可对纹理和背景简单的图像取得良好的效果[17], 但FCM仅考虑像素光谱信息, 对噪声较敏感. 为此常将图像局部空间信息引入目标函数, 如文献[18-19] 中, 通过迭代计算像素邻域和聚类中心之间的距离来提高FCM算法对图像分割的鲁棒性. 然而, 局部空间信息的引入会导致算法复杂度升高, 降低了该算法的实际应用价值.


为了克服传统阈值法需人为设定类别数、对噪声敏感、计算复杂度高等局限性, 提出了一种基于局部空间信息的可变类模糊阈值遥感图像分割方法. 首先, 以图像中待定类像素点的光谱一阶矩和二阶矩为初始类中心和自适应阈值, 利用二分法原理来初始化类别数目. 对于任意待定类别, 当相邻两次迭代得到类别的像素光谱均值差小于规定值时, 该类查找结束, 并以此均值作为该类的中心. 并在确定各类的迭代过程中, 计算与其二阶邻域系统间的相似度, 以最大相似度准则进行类别区域合并. 由确定的类别数和类中心为输入, 通过岭形模糊隶属函数计算图像中各像素点对于不同类别的隶属程度. 考虑图像中属于同一类别的像素具有一定程度的连通性, 即各像素与其邻域之间关系紧密, 不可能存在孤立的像素, 而隶属度和标号场是各像素属性的映射, 因此也满足此局部空间关系. 为了利用此局部空间信息同时降低计算复杂度, 在隶属度域中定义一个加权模糊滤波器对每一类别中像素点的隶属度进行滤波, 以滤波后的隶属度集合为依据, 按照最大隶属原则确定图像的标号场. 最后, 对标号场中局部异常标号进行替换, 将修正后的标号场由对应的类中心赋色得到分割图像.



22

基于多层BP神经网络的无参考视频质量客观评价

姚军财, 申静, 黄陈蓉


机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型.


姚军财, 申静, 黄陈蓉. 基于多层BP神经网络的无参考视频质量客观评价. 自动化学报, 2022, 48(2): 594−607 doi: 10.16383/j.aas.c190539

Yao Jun-Cai, Shen Jing, Huang Chen-Rong. No reference video quality objective assessment based on multilayer BP neural network. Acta Automatica Sinica, 2022, 48(2): 594−607 doi: 10.16383/j.aas.c190539

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190539?viewType=HTML


视频技术的发展和应用改变了人们传统的生活、工作和学习等方式. 由此, 视频质量成为一个不可回避的重点话题. 实时、有效和便捷的视频质量评价(Video quality assessment, VQA)方法, 是保障视频有效通信的前提[1-2].

视频质量主要受到来自视频内容、编解码、传输环境和人类感知4个大的方面因素的影响[1-5]. 视频的压缩编码给视频带来模糊、块效应等损伤[5]; 视频传输中的缓冲延时、卡顿、误码等问题造成视频图像模糊、播放停顿等情况, 均会影响网络视频质量, 使得用户体验质量下降[2]; 对于视频内容, 相同的外在环境但不同的视频内容给人的感知效果也有较大的不同, 视频内容同样是影响视频质量的重要因素[3]; 人类是视频质量的最后接受者和评价者, 视频质量评价结果需要符合人类视觉特性[4-6]. 由此, 在VQA中需要考虑上述4个大的方面的影响.

VQA一般分为3类: 全参考(Full-reference, FR)、部分参考(Reduced-reference, RR)和无参考(No-reference, NR)视频质量评价[1]. 截止目前, 现有的大多数VQA模型均是FR和RR, 其典型的有 PSNR (Peak signal-to-noise ratio)、VSNR (Visual signal-to-noise ratio)[7]、SSIM (Structural similarity index)[8]、VQM (Video quality model)[9]、ST-MAD (Spatiotemporal most apparent distortion algorithm)[10]、MOVIE (Motion-based video integrity evaluation)[11]模型等. 对于NR-VQA, 其不需要任何来源, 该方法进一步分为两类[12]: 1) NR-P (NR视觉感知)类型, 其用于完全解码的视频质量的评价; 2) NR-B (NR编码)类型, 其使用从比特流中提取的信息来评价视频质量. 另外, 神经网络方法在VQA模型回归方面具有较大的优势, 能够较大地提高构建模型的精度[13], 且由于NR-VQA不需要源视频, 其在视频传输中具有重要的实际应用价值, 因而, 结合神经网络的无参考视频质量评价方法成为视频通信的热门研究课题. 近些年报道相关领域的研究成果主要有VQAUCA (NR VQA using codec analysis)[14]、V-CORNIA (Video codebook representation for NR image assessment)[15]、C-VQA (NR VQA method in the compressed domain)[16]、NR-DCT (Discrete cosine transform-based NR VQA model)[17]、V-BLIINDS (Blind VQA algorithm)[18]、NVSM (NR VQM using natural video statistical model)[19]、3D-DCT (NR-VQA metric based on 3D discrete cosine transform domain)[20]和COME (NR VQA method based on convolutional NN and multiregression)[21]等NR-VQA模型, 但其目前仍存在较多问题, 主要有:

1)失真特征提取数量问题: 在视频通信中, 可能会产生多种类型的视频失真, 在构建NR-VQA模型中, 虽然提取更多的视频失真特征可以提高其评估精度, 但同时也增加了其复杂度[12, 19, 22]. 因此, 构建NR-VQA模型时应尽量提取少量但有效的失真特征, 但这个度非常难把握;

2)视频内容及其视觉感知问题: 现有的NR-VQA模型通常只关注于传输造成的视频失真, 很少考虑视频内容及其视觉感知效果对视频质量的影响[3, 14]. 因此, 其主客观评价结果一致性较差, 需要结合二者提高精度;

3) HVS特性问题: 在VQA中引入合适有效的HVS (Human visual system)感知特性能够显著性提高VQA评价精度. 但是, 如果使用从比特流中提取的失真特征来构建NR-VQA模型时, 则很难有效地在模型中引入HVS特性[3-4]. 因此, 目前一般将VQA-B度量和VQA-P度量相结合, 构建综合的NR-VQA模型, 从而提高了模型的精度;

4)模型的复杂性问题: 在视频通信中, VQA需要实时进行, 其要求模型尽可能简单但有效. 然而, VQA模型往往引入了部分HVS特性, 并且依赖于更多的视频失真特性, 同时, 采用了机器学习方法, 因此, 现有的NR-VQA模型往往非常复杂[17-22]. 因此, 在构建模型时, 需要对这些特征和方法进行适当的选择, 并对相应的参数进行优化;

5)泛化性问题: 在NR-VQA中, 其方法往往使用机器学习工具获得视频质量评价分数, 然而, 机器学习需要训练样本; 目前, 其常见方法是使用视频数据库中的部分样本进行训练, 而其余部分进行测试, 其实验结果表明, 如此方式, VQA模型精度较高; 然而, 当测试其他数据库中的视频时, 其模型精度则显著下降[15-22]. 实验表明, 基于机器学习方法的VQA模型的泛化性能往往较差. 因此, 有必要对VQA模型进行优化, 提高泛化性能.

6)模型精度问题: 对于基于机器学习方法的NR-VQA, 往往选取的样本素材、测试和训练样本的比例、不同测试数据库样本等对评价模型的精度有较大的影响[16-19]. 因此, 在模型构建时需要从样本的多个方面来考虑, 以提高精度.

基于此, 在本研究中, 针对上述影响视频质量的4个大的方面, 结合多层BP神经网络研究了无参考视频质量评价方法, 并与现有模型进行对比分析, 研究了其精度、复杂性和泛化性能.



23

面向精准价格牌识别的多任务循环神经网络

牟永强, 范宝杰, 孙超, 严蕤, 郭怡适


为了促进智能新零售在线下业务场景的发展, 提高作为销售关键信息价格牌的识别精度. 本文对价格牌识别问题进行研究, 有效地提高了价格牌的识别精度, 并解决小数点定位不准确的难题. 通过深度卷积神经网络提取价格牌的深度语义表达特征, 将提取到的特征图送入多任务循环网络层进行编码, 然后根据解码网络设计的注意力机制解码出价格数字, 最后将多个分支的结果整合并输出完整价格. 本文所提出的方法能够非常有效地提高线下零售场景价格牌的识别精度, 并解决了一些领域难题如小数点的定位问题, 此外, 为了验证本文方法的普适性, 在其他场景数据集上进行了对比实验, 相关结果也验证了本文方法的有效性.


牟永强, 范宝杰, 孙超, 严蕤, 郭怡适. 面向精准价格牌识别的多任务循环神经网络. 自动化学报, 2022, 48(2): 608−614 doi: 10.16383/j.aas.c190633

Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2022, 48(2): 608−614 doi: 10.16383/j.aas.c190633

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190633?viewType=HTML


传统零售业抑或是近年来兴起的快消新零售, 渠道核查是其中的必要环节. 传统的作业方式主要分为业务代表现场考察以及第三方外包核查, 但都存在人工误差大、核查周期长、核查成本高以及误差数据无法溯源等缺点. 随着深度学习的迅速发展, AI (人工智能)已经成为高端科技的代名词, 各行各业的AI应用层出不穷. 基于深度学习的图像识别技术凭借着高精度、高泛化性, 非常适合应用于渠道核查的业务场景, 是核查工作强大的助力. 渠道核查主要包含两大识别内容, SKU (Stock keeping unit), (库存量单位)识别和价格牌识别, 本文工作主要针对价格牌识别的需求. 价格作为销售数据的基石, 对识别精度非常敏感, 目前基于深度学习的价格牌识别技术容易受到其外观样式、拍摄质量等因素的影响, 如模糊、倾斜、光照不均匀等. 因此, 如何克服实际应用中可能遇到的复杂场景, 准确识别价格牌中的信息是 OCR (Optical character recognition)领域的一个重要研究目标.


目前, 应用性较广的价格牌识别算法大多以文本识别算法为基础. 基于卷积循环神经网络(Convolution recurrent neural network, CRNN)[1]的识别方法, 为序列识别任务带来了突破性的进展, 也为文本识别领域打开了一扇大门. 随后基于CRNN变体和各种注意力机制的文本识别算法[2-3]层出不穷, 相较于前者, 增加的注意力机制主要用于关联输入信息的相关性, 这种方式显著提高了通用文本的识别精度.


目前国内外的文本识别研究, 普遍关注没有符号的文字序列. 对于价格牌这类带有符号的序列识别, 一些在通用文本数据集上表现优异的算法[4-5], 性能并不能令人满意. 为此本文提出了一种多任务的卷积神经网络, 有效地提高了价格牌的识别精度.


在价格牌的识别任务中, 精准地识别所占像素比例很小或直接被省略的小数点, 是非常困难的一项任务, 也是其区别其他文本图像识别任务的重点. 现有的绝大部分算法是将价格牌的整体进行无差别的识别, 但是由于价格牌的种类繁多, 以及一些客观因素的影响, 导致其在图像中的特征并不明显, 即使采用基于上下文关系的序列识别算法也很难准确定位小数点的位置. 为此本文提出了一种将整数部分与小数部分分开, 协同识别整体的方法, 实现对小数点的准确定位. 使用端对端的多任务训练策略进行学习, 降低训练的难度. 经过实验证明, 本文提出的方法不仅在识别精度上有着优越的指标, 对于小数点的识别更是超越了以往深度学习算法的成绩.


由于已开源的数据集中暂无价格牌这一特定场景, 我们将实验中使用的价格牌数据集开源出来以供研究使用. 我们的数据集采集自真实货架场景图像, 涵盖不同样式, 不同拍摄角度, 不同光照变化等, 其中包含训练集10 000张, 测试集1 000张, 困难测试集1 000张(包含了手写价格、模糊价格以及其他影响因素的价格数据), 训练集及测试集的数字区域比较清晰, 辨识度较高, 而困难测试集的数字区域大都存在干扰项(如反光、拍摄重影、双价格标签等), 辨识度较低. 此外, 为了进一步验证本文所提出方法的泛化能力, 我们在类似的车牌数据集中也进行了相关实验, 实验结果表明了本文所提出方案的有效性.



24

金字塔结构逻辑运用二值脉冲对简单图形处理

王上


本文根据元胞自动机模型划分方法, 将二维图像分解为2×2矩阵单元结构. 提出了几种逻辑运算式, 用以分类由黑白二值点构成的2×2矩阵图形. 通过CNN神经网络的多层结构形式, 分析了金字塔结构逻辑在相似的组合形式下, 对二值图形边缘检测和池化的功能. 通过同步脉冲形式能将灰度图像, 分解为多个时间维度的二值图形, 方便多层金字塔逻辑运算处理. 分析了如何采用延时继电器使金字塔结构逻辑具有记忆的特性. 讨论了3×3输入金字塔模型, 在不规律脉冲情况下, 通过逻辑运算对线性交点检测的可能.


王上. 金字塔结构逻辑运用二值脉冲对简单图形处理. 自动化学报, 2022, 48(2): 615−626 doi: 10.16383/j.aas.c190619

Wang Shang. Pyramid structural logic using binary pulse for simple graphics processing. Acta Automatica Sinica, 2022, 48(2): 615−626 doi: 10.16383/j.aas.c190619

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190619?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1326471.html

上一篇:从视频到语言:视频标题生成与描述研究综述
下一篇:自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类
收藏 IP: 159.226.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 13:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部