|
引用本文
秦超, 高晓光, 万开方. 深度卷积记忆网络时空数据模型. 自动化学报, 2020, 46(3): 451−462 doi: 10.16383/j.aas.c180788
Qin Chao, Gao Xiao-Guang, Wan Kai-Fang. Deep spatio-temporal convolutional long-short memory network. Acta Automatica Sinica, 2020, 46(3): 451−462 doi: 10.16383/j.aas.c180788
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180788
关键词
时空数据模型,深度卷积记忆网络,时间特征,空间特征
摘要
时空数据是包含时间和空间属性的数据类型. 研究时空数据需要设计时空数据模型, 用以处理数据与时间和空间的关系, 得到信息对象由于时间和空间改变而产生的行为状态变化的趋势. 交通信息数据是一类典型的时空数据. 由于交通网络的复杂性和多变性, 以及与时间和空间的强耦合性, 使得传统的系统仿真和数据分析方法不能有效地得到数据之间的关系. 本文通过对交通数据中临近空间属性信息的处理, 解决了由于传统时空数据模型只关注时间属性导致模型对短时间间隔数据预测能力不足的问题, 进而提高模型预测未来信息的能力. 本文提出一个全新的时空数据模型—深度卷积记忆网络. 深度卷积记忆网络是一个包含卷积神经网络和长短时间记忆网络的多元网络结构, 可以提取数据的时间和空间属性信息, 通过加入周期和镜像特征提取模块对网络进行修正. 通过对两类典型时空数据集的验证, 表明深度卷积记忆网络在预测短时间间隔的数据信息时, 相较于传统的时空数据模型, 不仅预测误差有了很大程度的降低, 而且模型的训练速度也得到提升.
文章导读
随着数据处理技术以及数据采集设备(如传感器或移动采集装置)的发展, 具备时间和位置属性的时空数据成为大数据时代典型的数据类型[1]. 设计时空数据模型, 用以对时空数据进行时间和空间维度的处理, 可以得到反映对象由于时间和空间改变而产生的行为状态变化的信息[2-4], 这类信息可以有效地预测对象未来的状态.
交通信息数据与时间和空间两类属性的密切联系, 可以说是一类典型的时空数据. 并且交通信息数据不同属性之间具有不同程度耦合性, 处理起来比较复杂, 所以目前研究时空模型的学者们主要工作在于设计时空数据模型以便有效地处理交通信息数据. 对交通信息进行研究可以提供准确的公路状况信息给决策者, 从而使决策者对公路进行良性管理.
处理交通数据的时空数据模型主要有两类, 系统仿真模型和数据分析模型.
系统仿真模型的原理是分析交通系统的内部结构, 建立一个白盒用来模拟系统的运行, 预测未来某一时刻的数据[5]. Vlahogianni[6]通过分析交通系统内各个部分之间的关系, 设计了一个计算智能模型(Computational intelligence). 该模型可以解决由于交通数据输入维度增大导致解空间过大的问题, 并可以有效地处理大规模多目标数据. 由于系统仿真模型在处理诸如交通网络等复杂系统时不能有效地分析各个部分之间的隐藏关系, 所以学者们的关注点主要在对已经采集得到的交通数据设计数据分析模型.
数据分析模型将统计学和机器学习相结合, 建立对交通系统的黑盒模拟[7]. Ahmed等[7]使用ARIMA (Autoregressive integrated moving average)模型将交通信息中的时空数据转化成时序数据, 通过数据差分将非平滑时间序列转化成平滑时间序列, 使输出变量仅对其滞后量以及随机误差项的当前值和滞后量进行回归处理, 从而建立数据分析模型. Williams等[8]在ARIMA基础上提出了S-ARIMA (Seasonal ARIMA)算法, 改变ARIMA模型滞后量的计算方法, 降低了对模式的识别能力和预测长时间间隔(Long-term)数据的预测误差. Lippi 等[9]在ARIMA的基础结构上加入了一个卡尔曼滤波器, 提高了模型在解决复杂问题时的准确率. Kumar 等[10]通过对动脉数据进行实验分析, 说明了S-ARIMA算法能够有效地处理对时间属性不敏感的数据信息. 由于ARIMA本质上是将交通信息当成一种时序数据使用差分方法处理, 使得算法对时间属性不敏感, 而且由于交通数据不同属性之间具有强耦合性, 模型容易产生一些非线性问题, 导致 ARIMA及其衍生模型在处理高速改变的交通数据流时具有一些局限性, 在预测短时间间隔(Short-term)数据时表现较差[10].
学者们通过非参数(Non-parametric)的机器学习技巧, 尝试解决ARIMA很难解决的这些非线性问题, 提高模型预测短时间间隔数据的能力. 神经网络是典型的非参数机器学习网络. 相对于传统的ARIMA模型, 神经网络具有很多优势. 首先体现在神经网络可以扩展到上千节点, 使得模型以比较大的精度逼近真实模型. 其次, 神经网络中含有非参数结构, 可以更灵活地处理输入数据. 更重要的是由于神经网络没有对数据进行差分处理, 可以有效地处理高速改变的交通信息流. Dougherty 等[11]使用神经网络处理交通信息, 包括司机的行为信息、交通参数估计、交通信息的预测等, 在理论和实验这两方面说明了神经网络处理交通数据的可行性. Hua 等[12] 通过实验证明使用人工神经网络预测短时间间隔之后的汽车运行时间, 预测误差比传统的ARIMA的方法要小. Smith 等[13]使用BP(Back propagation)神经网络处理动态信息, 对比于传统的非参数回归模型和ARIMA模型, 在预测短时间间隔数据时预测误差得到了很大程度的降低. Chan 等[14]说明神经网络在预测交通流密度方面具有获取数据非线性特征的能力, 并说明神经网络在交通数据处理方面已经得到了广泛应用.
Hinton等[15]改进了深度学习算法的训练机制, 使得深度学习算法受到学术界和工商界的广泛关注. 深度学习模型在图像处理、语音识别、文本翻译等领域取得了巨大成功[16]. 在交通信息领域, 由于深度学习算法可以从大数据集中学习到有效的特征, 许多学者尝试使用该算法对海量的交通数据进行处理. Polson等[17]使用了深度结构的神经网络来预测交通流, 通过对Interstate I-55号道路上获取的数据进行训练, 预测短期的交通流密度. 这篇文献还对预测中出现的两处异常值做出了合理的解释. 对比于传统的BP神经网络, 在模型的收敛速度上得到提升. Jia等[18]通过使用多层的受限玻尔兹曼机模型, 建立以MAPE (Mean absolute percentage error)、RMSE (Root mean square error)以及RMSN (Normalized root mean square error)为预测误差的深度信念网络(Deep brief network, DBN)模型, 用来预测短时间间隔交通流速度, 实验结果表明使用DBN得到的预测误差比BP神经网络和ARIMA模型要小, 说明DBN在预测短时间间隔时空数据时效果更好. Lv 等[19]建立堆叠自适应编码器 (Stacked autoencoders, SAEs)网络预测短时交通流密度, 实验所得预测误差比BP神经网络和支持向量机(Support vector machine, SVM)等浅层网络模型以及S-ARIMA低. 类比图像数据和声音采样信息, 交通流数据在空间和时间领域具有很多有用的特征[20]. 由于这些深度学习模型很难学习到数据有关时间和空间关系的良好特征表达, 在预测长时间间隔的交通数据的时候表现乏力, 限制了模型的泛化能力.
循环神经网络(Recurrent neural network, RNN)是一类用于处理序列数据的神经网络. RNN中的循环单元可以很好地记忆前某个时刻网络学习到的数据信息, 可以学习到输入数据中时间属性的特征[21]. 但传统的RNN网络在处理交通信息时存在一些不足: 1) RNN网络中的时间迭代步长需要在网络设计前给定. 2) RNN在处理预测长时间间隔交通数据的时候表现乏力[22]. Ma 等[22]针对传统RNN存在的问题, 使用RNN中一种特殊结构的长短期记忆(Long short-term memory, LSTM)预测长时间间隔(Long-term)的交通流密度, 通过实验对比LSTM和传统RNN以及其他深度学习模型在预测长时间间隔的交通数据方面的能力, 结果说明了LSTM比传统RNN和其他深度学习模型在预测长时间间隔数据时效果更好.
ARIMA、神经网络、传统的深度学习网络以及RNN等模型, 重点关注数据时间属性的信息, 缺乏对临近空间信息的分析, 没有从本质上解决短时间间隔预测能力不足的问题. 临近空间数据对预测信息的变化趋势影响较大, 所以如果需要有效地预测高速改变的信息流, 应重点关注该预测点临近位置的数据. 在研究临近空间位置数据的时候, 可以将某一个时刻所有位置的数据信息做一个网格, 采用一些特定的结构进行处理. 网格中所有数据不是完全独立的, 位置距离越近, 数据的相关性越强, 而使用传统的全连接的网络结构很难学习到这个特征.
本文提出一个全新的时空数据模型——深度卷积记忆网络(Deep spatial-temporal convolutional LSTM, DSTCL), 建立包含卷积神经网络和长短时间记忆网络的多元网络结构, 相对于传统的时空数据模型, 加入对模型的空间属性信息的处理, 重点解决模型预测中短时间间隔数据的误差较大的问题. 卷积神经网络(Convolutional neural network, CNN)在处理类似网格结构数据的时候, 可以高效地学习到临近空间信息的相关性以及输入变量不同区域之间的关系等信息[23-24]. 长短时间记忆网络可以学习到数据的记忆特征, 有效地处理时间属性信息. 多元网络DSTCL能够同时提取到数据的时间和空间属性信息, 更有效对长时间间隔、中时间间隔以及短时间间隔的数据进行预测. 考虑到交通数据的周期属性以及一天中镜像时间段的影响, 在DSTCL中加入了周期特征提取模块和镜像特征提取模块对网络进行修正.
本文结构如下: 第1节对需要处理的问题进行概述, 第2节给出模型设计的细节, 第3节给出实验结果和分析, 第4节是结论和展望.
图 1 按照时间顺序对不同位置的交通数据进行处理
图 2 使用CNN训练空间特征
图 3 循环神经网络的计算图模型
在本文中, 我们设计了一个时空数据模型——DSTCL用于预测交通数据中的速度信息. DSTCL模型是一个包含卷积神经网络和长短时间记忆网络的多元神经网络, 解决了其他时空数据模型只关注时间属性信息导致的对短时间间隔信息预测能力不足的问题, 通过对临近空间属性信息的特征和时间特征的提取, 得到对短时间间隔、中时间间隔和长时间间隔数据的有效预测. 通过实验对比了DSTCL与当前主流时空数据模型的训练效果. 实验结果显示DSTCL在预测中短时间间隔的信息的能力要优于其他时空数据模型. 而预测长时间间隔的数据时, DSTCL的预测误差与S-ARIMA相差不大(RMSE差0.23), 但低于其他三个模型(ANN、LSTM和DBN), 说明DSTCL可以比较有效地预测长时间间隔的数据. 通过高峰时间段传感器探测得到的真实数据和不同时空数据模型的预测值对比, 显示出DSTCL相对于其他时空数据模型, 更好地捕捉到了短时间内敏感的速度变化信息, 说明DSTCL能更好地获取速度随时间变化的趋势. 比较临近位置的同一时刻的速度信息, 可以看到DSTCL相对于其他时空数据模型, 预测值与真实值的随空间信息改变的变化趋势相近, 说明DSTCL可以很好地获取速度信息随空间信息变化的趋势. 通过对比三种结构(CNN、LSTM以及堆叠自动编码器)对模型预测性能的影响, 可以看出CNN对模型预测中短时间间隔数据的能力贡献较大; LSTM对模型预测长时间间隔数据的能力贡献较大; 加入堆叠自动编码器相当于对模型整体上进行优化.
DSTCL模型在处理数据时, 有时候出现训练前期预测误差波动的现象, 未来的主要工作是研究波动的原因, 并进一步优化模型的超参数, 使预测效果更优.
作者简介
秦超
西北工业大学电子信息学院博士研究生. 主要研究方向为深度学习. E-mail: woshiqchi@gmail.com
高晓光
博士, 西北工业大学电子信息学院教授. 主要研究方向为深度学习, 贝叶斯网络. E-mail: cxg2012@nwpu.edu.cn
万开方
博士, 西北工业大学电子信息学院讲师. 主要研究方向为深度学习, 强化学习. 本文通信作者. E-mail: wankaifang@nwpu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 09:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社