|
引用本文
许美玲, 邢通, 韩敏. 基于时空Kriging方法的时空数据插值研究. 自动化学报, 2020, 46(8): 1681−1688 doi: 10.16383/j.aas.2018.c170525
Xu Mei-Ling, Xing Tong, Han Min. Spatial-temporal data interpolation based on spatial-temporal Kriging method. Acta Automatica Sinica, 2020, 46(8): 1681−1688 doi: 10.16383/j.aas.2018.c170525
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170525
关键词
时空数据,时空Kriging,插值,弹性网算法
摘要
在对气象数据进行插值的过程中, 如果只考虑数据的空间信息而忽视数据在时间上的关联, 必然影响插值的精度.针对具有时空特性的气象数据, 提出一种将时空Kriging方法与弹性网方法相结合的新方法.该方法主要利用弹性网算法解决时空Kriging算法中的时空变异函数矩阵为病态矩阵而无法求逆的问题, 通过弹性网算法获得变异函数矩阵方程的稀疏解, 从而提高时空插值的精度.在实际观测的气温数据和AQI数据上的仿真实验验证了该方法对气象时空数据插值的准确性.
文章导读
基于数据的分析方法[1-3]广泛应用于复杂系统建模[4]中, 完备的、准确的数据集是高精度建模的基础.然而在实际观测的气象、交通、环境等领域的数据集中, 存在系统误差、随机误差或者数据缺失、数据异常的情况.
对于数据缺失或异常的问题, 最普遍的解决方法是在数据集中挑选具有连续性的数据子集, 但该方法会对已知数据资源造成极大的浪费.同时, 也会减小数据所记录的某些极端事件的周期, 导致在后续的研究中增加对该极端事件的统计概率[5].还有一种方法就是对存在的数据缺失进行合理的推理得到一个完整的数据集, 即数据插值.常采用的插值方法有多项式插值算法[6]、三次卷积插值[7]、反距离加权算法[8]、普通Kriging插值算法[9-10]等.
仅仅从时间、空间上考虑插值会忽略数据在时间上的趋势性和在空间上的关联性, 从而丢失时空数据集所包含的重要信息, 影响插值精度.因此, 对具有时空特性的数据进行插值的过程中, 需要同时考虑时间趋势性和空间关联性.关于时空插值的方法主要是从时间域或者空间域的方法扩展而来.例如, Li等[11]提出两种时空插值模型, 一种是把时间作为和空间等同的一个维度, 扩展为高维的空间插值.另一种是对空间插值函数和时间插值函数作乘法, 称之为时空乘积插值方法. Antonić等[12]利用具有前向反馈的多层神经网络对克罗地亚的七个气候变量进行时空插值, 通过神经网络训练数据找出变量之间的时间趋势性和空间关联性.
除上述方法外, 还有一大类典型的时空方法是从空间Kriging插值算法衍生而来, 应用较为广泛.例如, 徐爱萍等[13]对空间Kriging算法进行时空扩展, 在时空扩展的过程中把时间看作第三维坐标进行考虑.该方法把时空插值问题转化为高维的空间插值问题, 但忽略了时间和空间各向异性, 影响插值精度. Myers[14]分析考虑各向异性的三个原因:在空间上无法映射时间的独特性质; 在进行逼近和插值的过程中有不同的方向; 各向异性基函数具有部分可微性. De Cesare等[15]针对时空相关性结构提出对于变异函数的不可分离模型—一类积和模型, Iaco等[16]提出一种广义积和模型应用到时空变异函数建模当中, 之后又进一步在文献[17]中针对时空变异函数以及协方差函数给出严格正定的积和模型.
时空Kriging算法广泛应用在气象、水文领域中, 文献[18]对米兰地区的二氧化氮的含量进行时空Kriging插值. Bogaert[19]在其论文中对Ordinary Kriging算法, Cokriging算法以及时空Kriging算法采用交叉验证的方法说明时空Kriging的预测效果更佳. Zeng等[20]对大气二氧化碳含量进行时空Kriging插值. McDaniel等[21]把时空Kriging算法应用到对土壤的甲烷含量和二氧化氮的含量的检测中.李莎等[22]对东北三省月降雨量进行时空Kriging插值研究, 同时与空间Kriging插值算法比较, 插值精度比空间Kriging更高.文献[23]针对时空统计问题, 提出Kriging算法和Kalman滤波相结合, 并得到广泛应用.
上述研究极大地推动了时空数据插值研究的发展, 但是在众多的时空Kriging文献中, 关注的重点集中在利用优化或改进时空变异函数模型来提高时空插值精度, 针对时空Kriging算法求解权重系数过程中存在的变异函数矩阵具有病态特性的问题研究较少.变异函数矩阵的病态特性是由于该矩阵的列向量的线性相关性过大, 表示的特征太过于相似以至于容易混淆所产生的.病态矩阵问题在很多领域都存在, 解决这一问题的方法有很多, 例如Lasso回归[24]和岭回归[25]等. Lasso回归通过施加一范数惩罚稀疏化解空间, 岭回归算法通过损失求解的无偏性来换取解的稳定性.弹性网算法[26-28]结合岭回归和Lasso回归的优点, 既能提高解的稳定性, 又能得到稀疏的解, 故本文引入弹性网算法解决由于时空变异函数矩阵病态导致无法求逆的问题.通过求解时空变异函数矩阵方程, 算出时空域样本点对应的权重系数, 进而计算得到较为精确的时空插值结果.
图 1 气温数据空间变异函数
图 2 气温数据时间变异函数
图 3 气温时空变异函数值
为解决气象数据观测值缺失或者异常的问题, 本文提出一种新型的时空Kriging算法.该算法既考虑时间信息又考虑空间要素, 对数据进行时空插值.将弹性网算法与一般时空Kriging算法相结合, 解决变异函数矩阵为病态矩阵而影响时空插值精度的问题.基于两组实际观测的气象时空数据的仿真实验验证了本文所提方法的有效性, 其比单独考虑空间信息的空间Kriging算法、单纯考虑时间信息的ESGP算法、考虑时空信息的STARMA算法以及STESN算法的精度都要高, 具有良好的应用前景.
作者简介
许美玲
大连理工大学电子信息与电气工程学部讲师.主要研究方向为神经网络和多元时间序列预测. E-mail: xuml@dlut.edu.cn
邢通
大连理工大学电子信息与电气工程学部硕士研究生.主要研究方向为神经网络和时空序列预测. E-mail: xt1386@mail.dlut.edu.cn
韩敏
大连理工大学电子信息与电气工程学部教授.主要研究方向为模式识别, 复杂系统建模与分析及时间序列预测.本文通信作者. E-mail: minhan@dlut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 19:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社