IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

多元时间序列因果关系分析研究综述

已有 4383 次阅读 2022-11-11 16:37 |系统分类:博客资讯

引用本文

 

任伟杰, 韩敏. 多元时间序列因果关系分析研究综述. 自动化学报, 2021, 47(1): 64−78 doi: 10.16383/j.aas.c180189

Ren Wei-Jie, Han Min. Survey on causality analysis of multivariate time series. Acta Automatica Sinica, 2021, 47(1): 64−78 doi: 10.16383/j.aas.c180189

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180189

 

关键词

 

多元时间序列,Granger因果分析,转移熵,状态空间 

 

摘要

 

多元时间序列的因果关系分析是数据挖掘领域的研究热点. 时间序列数据包含着与时间动态有关的、未知的、有价值的信息, 因此若能挖掘出这些知识进而对时间序列未来趋势进行预测或干预, 具有重要的现实意义. 为此, 本文综述了多元时间序列因果关系分析的研究进展、应用与展望. 首先, 本文归纳了主要的因果分析方法, 包括Granger因果关系分析、基于信息理论的因果分析和基于状态空间的因果分析; 然后, 总结了不同方法的优缺点、适用范围和发展方向, 并概述了其在不同领域的典型应用; 最后, 讨论了多元时间序列因果分析方法待解决的问题和未来研究趋势.

 

文章导读

 

时间序列是指现实世界中的某个观测变量, 按照其发生的时间先后顺序排列的一组数字序列. 时间序列可以分为一元时间序列和多元时间序列, 多元时间序列是指多个一元时间序列的组合, 可以认为是一次采样中可以获得不同来源的多个观测变量. 多元时间序列广泛存在于自然[1]、医学[2]、社会[3]、工业[4]等各个领域的复杂系统中, 多个变量之间具有复杂的关联关系, 相互影响作用不明确. 随着数据采集和存储技术的发展, 时间序列数据的维度和规模不断增加, 为建立准确的预测模型增加了难度. 同时, 随着数据维度的增加, 出现了大量冗余和无关变量, 容易掩盖重要变量的作用, 对模型的建立产生负面的影响[5]. 时间序列数据挖掘[6-7]是当前研究的热门问题, 研究如何有效地从多元时间序列中挖掘潜在的有用信息、构建预测模型, 能够为自然、医学、社会、工业等领域的控制、决策与调控提供理论指导, 具有十分重要的现实意义[8]. 因此, 本文主要研究多元时间序列的分析手段, 解释未知系统的动力学特性与运行规律, 从而为建立更加精确的系统模型奠定基础.

 

在多变量系统中, 通过分析可观测变量之间的相关关系, 可以找出对建模贡献度大的相关变量, 从而推断出系统的运行机理. 目前, 多元时间序列相关性分析主要集中于统计学手段, 例如Pearson相关系数、秩相关系数、典型相关分析[9]、互信息[10]、最大信息系数[11]、灰色关联分析[12]、Copula分析[13]等. 这些方法能够有效处理线性或非线性相关关系, 其分析结果具有对称性. 然而, 多个变量之间不仅存在直接相互作用, 还存在以中间变量为桥梁的间接相互作用, 并且影响关系通常具有非对称性. 传统的相关性分析方法难以处理间接关系、非对称影响关系, 在实际应用中受到很大限制.

 

随着系统复杂度的增加, 相关性分析难以满足建模需求, 因果关系分析方法得到广泛关注[14]. 因果关系是一个系统(因)与另一个系统(果)之间的作用关系, 其中第1个系统是第2个系统的原因, 第2个系统依赖于第1个系统. 1969年, Granger[15]首次提出了一种评价二变量时间序列之间是否存在相互作用的因果关系分析方法, 即Granger因果关系分析方法. 该方法基于系统的可预测性, 基本思想是: 对于两个时间序列, 如果一个时间序列未来时刻的预测误差, 能够通过引入另一个时间序列的历史信息而减小, 则称第2个时间序列对第1个时间序列具有因果影响. 由于传统的Granger因果分析建立在线性模型的基础上, 仅对二元时间序列进行分析, 在提出之后出现了大量改进模型[16]. Granger因果分析方法具有很强的可解释性, 但是此类方法只能给出定性分析结果, 并且对于高维时间序列容易产生虚假因果现象. 基于信息测度的因果分析是一类非参数方法, 包括转移熵、条件熵、条件互信息等, 这类方法通过建立评价函数, 能够定量分析因果关系的强弱[17]. 此外, 基于状态空间的因果模型[18]、贝叶斯网络等模型[19-20], 同样用于分析各种类型的因果关系. 因此, 针对多变量系统的建模要求, 合理利用因果分析方法的优势, 研究系统各个变量之间的驱动响应关系, 进而推断系统内部结构和运行机理, 是当前研究的热点问题[21].

 

综上所述, 相比于常规的相关性分析方法, 因果分析方法能够分析出具有方向性的直接因果关系, 更加适用于多变量系统的分析与建模. 本文针对多元时间序列因果关系分析的几类典型方法进行综述, 包括Granger因果关系分析、基于信息理论的因果分析和基于状态空间的因果分析, 并结合当前流行的机器学习方法、不同领域时间序列建模的需求等, 讨论因果分析方法的实际应用和未来发展趋势.

1 收敛交叉映射基本原理示意图

 

随着海量时间序列的出现, 时间序列因果关系分析已经成为当前的研究热点. 首先, 本文对多元时间序列因果分析的研究现状进行了详细的综述, 包括三类典型方法. 第1类方法是Granger因果关系分析, 从可预测性角度出发, 根据时间序列模型预测结果定性分析因果关系, 该方法易于操作且可解释性强. 第2类方法是基于信息理论的因果分析, 根据信息测度建立因果关系评价指标, 定量分析时间序列的因果关系, 对时间序列的类型没有特殊要求, 具有广泛的适用范围. 第3类方法是基于状态空间的因果分析, 根据重构状态空间的映射关系, 定量评价两个系统之间的因果关系强弱, 在非线性系统因果分析问题上具有很好的效果. 然后, 对三类方法的代表性模型进行了对比分析, 并指出每类方法适用范围、存在的主要问题和发展方向. 最后, 本文总结了因果分析方法在自然、医学、社会科学领域的实际应用, 并进一步讨论了模型的适用范围.

 

根据因果分析模型的适用范围, 可以将其划分为线性和非线性、二变量和多变量等不同类型方法, 随着研究的深入, 当前因果分析方法主要面向非线性、多变量、非平稳系统. 对于今后的研究工作可以从以下几个方向展开:

1) 针对非线性因果关系分析, 可以从三个角度展开研究: a)根据Granger提出的可预测性理论, 建立非线性预测模型, 如核方法、神经网络等; b)基于非线性相关性指标建立因果关系模型, 如互信息、Copula分析等; c)根据非线性状态空间重构理论, 应用状态空间模型建立因果关系. 在实际应用中, 采用几种不同方法的组合, 能够实现对复杂系统的非线性因果关系分析.

2) 针对多变量因果关系分析, 可以从两个角度展开研究: a)建立多变量回归模型, 根据Granger因果理论分析多变量系统因果关系; b)引入条件变量, 从条件概率的角度建立多变量因果关系指标. 目前, 大部分研究成果集中于二维或多维变量的因果分析, 对于高维或超高维时间序列的因果分析缺少有效的处理手段. 借助于稀疏化建模等技术手段, 展开对海量数据的因果分析, 是未来的重点研究内容之一.

3)针对非平稳时间序列的因果关系分析, 可以从以下两个方面展开研究: a)对时间序列本身进行处理, 实现平稳化, 如差分方法、符号化等, 然后对平稳化后的时间序列进行因果关系分析; b)建立时变的回归模型, 实现非平稳时间序列的因果关系分析, 如时变广义部分有向相干方法. 建立时变参数模型对非平稳时间序列进行因果关系分析是未来的一个研究方向.

4) 对系统的历史信息或状态空间的选择, 严重影响因果分析的结果. 对于Granger因果模型, 确定模型的阶数, 应用输入变量选择算法构建合适的输入变量, 能够有效提高因果分析的准确性. 对于基于状态空间的因果分析指标及模型, 应用非均匀嵌入方法建立状态空间, 有助于降低模型的复杂度, 提高因果分析的计算精度.

 

作者简介

 

任伟杰

大连理工大学电子信息与电气工程学部博士研究生. 主要研究方向为时间序列分析和特征选择.E-mail: renweijie@mail.dlut.edu.cn

 

韩敏

大连理工大学电子信息与电气工程学部教授. 主要研究方向为模式识别, 复杂系统建模及时间序列预测. 本文通信作者.E-mail: minhan@dlut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1363308.html

上一篇:机器意识研究综述
下一篇:【当期目录】IEEE/CAA JAS 第9卷 第10期
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-19 02:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部