|
股票价格、气温、降雨量等等,都是典型的时间序列。预测时间序列价值巨大,难度也巨大,是一个长期存在的挑战!
随着可获取数据量和数据质量的提升,以及各种数据挖掘和机器学习算法的发展,时间序列的预测方法越来越多也越来越先进。与此同时,一个自然的困惑是:这些算法到底有多好,相比“可能最棒的完美方法”,它们还有多大差距?回答这个问题,就必须知道一个时间序列的可预测性,也就是预测算法理论上精确度的上界。
为了解决这个问题,Barabasi小组提出了一个度量时间序列可预测性的量化算法[1](这篇著名的Science文章的第二作者当时是电子科技大学的博士生)。Song等人的基本思路是利用Lempel–Ziv (LZ)方程对真实熵进行近似[2],再用Fano不等式[3]基于近似的真实熵求得可预测性(具体技术细节请参考[1])。
文献[1]中通过计算,认为人类行为轨迹这个时间序列(我们访问的地点序列)的可预测性达到了93%,这无疑是很高的,和我们直观的感觉不符合。我们注意到文献[1]中对于上述技术在使用是的一些数学细节没有注意(或者描述上存在暧昧不清之处),主要包括两方面:一是Fano不等式和LZ方程中出现的求对数的底原则上对结果没有影响,但是如果这两个公式要一起用,他们的底必须一致(可以都是e或者都是2,为了信息学意义更明显,建议选为2)——而文献[1]似乎这两个底分别是2和e;二是在处理LZ方程近似的时候,有一种特殊情况是从位置i出发找不到任何一个子序列是没有在前面出现过的。这两种情况如果处理不当,都会造成得到的可预测性值偏高!
我们猜测,后面很多相关的研究都不当使用了文献[1]中的方法,得到了严重偏高的预测值[4]!
我们最近很细致地讨论了这个问题,并且通过可预测性可调节的理论模型生成的时间序列和一些真实序列,展示了不同理解方法带来的重大误差。这个文章可以帮助在时间序列预测和分析方面有兴趣的同学,避免犯错误!
论文免费链接[PDF]:
On predictability of time series.pdf
参考文献:
[1] C. Song, Z. Qu, N. Blumm, A.-L. Barabási, Limits of predictability in human mobility, Science 327 (2010) 1018.
[2] J. Ziv, A. Lempel, Compression of individual sequences via variable-rate coding, IEEE Trans. Inform. Theory 24 (1978) 530.
[3] R.M. Fano, W. Wintringham, Transmission of information, Phys. Today 14 (1961) 56.
[4] H. Barbosa, M. Barthelemy, G. Ghoshal, C.R. James, M. Lenormand, T. Louail, R. Menezes, J.J. Ramasco, F. Simini, M. Tomasini, Human mobility: Models and applications, Phys. Rep. 734 (2018) 1-74.
[5] P. Xu, L. Yin, Z. Yue, T. Zhou, On predictability of time series, Physica A 523 (2019) 345-351.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 10:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社