求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

“大数据”时期,更渴望“小样本数理统计学”

已有 8154 次阅读 2018-8-18 15:06 |个人分类:基础数学-逻辑-物理|系统分类:科研笔记| 大数据, 小样本, 数理统计学, 准确性, 可靠性

以下是近几年的一些学习心得。渴望您的指教!盼望您的批评!

“大数据”时期,更渴望“小样本数理统计学”

          

一、大数据时期,我们仍然经常“缺少数据

     大数据(big data),是说我们现在遇到了越来越多的数据,而这些数据的使用,却是越来越困难。

     百度百科的介绍:

     大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

         Wikipedia 的介绍:

         Originally there were 3 concepts volume, variety, velocity. Other concepts later attributed with big data are veracity (i.e., how much noise is in the data) and value.

          

     大数据就是说收集到的数据总量巨大,但这并不直接意味着“有用信息的增加”。

     例子一,街上的视频监视,真正的交通事故并不多发,当我们想要仔细了解事故过程时,仍然感到“数据量不够”。

     例子二超市里的视频监控。真正的小偷并不多。当我们抓小偷时,往往觉得视频监控的画面太少,疑犯的面部画面不够清晰准确。

     即,大数据里的Value(低价值密度)”,某种意义下可以解释为:真正需要的有用数据,仍然不多。当我们需要作出决定时,还是嫌“有用的数据太少了”。特别是在要求高精度、高可靠性的场合。

    

     以能源为例,“全球能源互联网(Global Energy Interconnection)”的核心成员之一是“电力系统”。由于目前没有充分的电能存储、提取手段,特别是在能量管理与系统稳定性所需要的范围内,这样,电力生产必须满足“功率的瞬时平衡”。即:用户需要多少电,电力部门必须提供多少电。发电多了,可能会损坏发电机、变压器;发电少了,用户会投诉。曾经有一个说法:

     在电力系统里,发电机停机、开机的重要性为 3.0;

     用户负荷预测的重要性为2.8;

     其余技术的重要性 ≤ 1.0。

     因此,用户负荷预测的准确率(如对未来1~7天的短期负荷预测),即使提高0.5%,也是一个重大的技术成果!这意味着每年上亿元的经济效益。

     类似地,还有现在的风力发电预测。对于未来,更为重要。

     即使在大数据时期,要想提高电力负荷预测、风电预测的准确性和可靠性,都会遇到“有效的数据不足”的困扰,尽管数据总量巨大。

            

二、小样本数理统计学,渴望你的飞跃发展

     “有效的数据不足”,会严重妨碍对事物的准确的可靠的认识。即提高负荷预测、风电预测的准确性、可靠性,仍然是十分困难而又十分重要的难题!

     增加采样频率与分辨率,是首选的有效方法。但,这往往会进一步增加大数据遇到的困难;

     小样本下的有效分析,是第二种方法。这也是目前应该大力发展的方法。

     

     小样本理论和方法,英国统计学家威廉·西利·戈塞特(William Sealy Gosset,1876-1937)首先创立的,是现代实验设计与分析的先驱。

     当样本容量 n<50 30 时,应该使用 t 分布、卡方分布、F分布等,来研究统计量的概率分布和性质等。

       

     遗憾的是,这些经典研究,似乎给我们设置了一些极限:必须有一定量的有效数据!

     在现有相对少量的数据或信息下,正确性有效性最大的决定,应该怎样做出?

     这是《小样本数理统计学》应该发展,也是迫切需要发展的关键课题。

       

     在“有效的数据不足”的条件下,一些相关的有效决定方法有:Bootstrapping(拔靴法,自助法),核方法(Kernel Method)。

     其它的有效新方法呢?

         

相关链接:

[1] Big data, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Big_data

[2] 大数据 (巨量数据集合(IT行业术语)),百度百科

https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941

[3] Sample size determination, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Sample_size_determination

[4] Khalid M,Savkin A V.Closure to discussion on “A method for short-term wind power prediction with multiple observation points”[J].IEEE Transactions on Power Systems,2013,28 (2):1898-1899.

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6496180

      it was observed that historical time interval during each exercise was different for different data ranges and times. Therefore, the optimal number of historical data points for the given data set was chosen based on manual trial-and-error methods.

[5] 2016-03-07, 关于时间序列的“组合预测之谜 forecast combination puzzle”

http://blog.sciencenet.cn/blog-107667-961080.html

https://ieeexplore.ieee.org/document/6496180/?arnumber=6496180&tag=1

[6] 2010-11-07,复杂系统行为预测的“机理+辨识”策略

http://blog.sciencenet.cn/blog-107667-381404.html

[7] 杨正瓴,张军,陈曦,等. 复杂系统行为预测的“机理+辨识”策略. 中国科技论文在线,200609-432,http://www.paper.edu.cn/.   《中国科技论文在线精品论文》,200712月第1期: 83-87.

原稿:《复杂系统行为预测的“机理+辨识”策略》, http://www.paper.edu.cn/releasepaper/content/200609-432

[8] Cohen's h, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Cohen%27s_h

[9] Robust parameter design, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Robust_parameter_design

[10] Design of experiments, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Design_of_experiments

[11] 核方法,百度百科

https://baike.baidu.com/item/%E6%A0%B8%E6%96%B9%E6%B3%95

[12] CSDN博客,2018-02-26,机器学习中的核方法(Kernel Method

https://blog.csdn.net/baimafujinji/article/details/79372911

[13] Kernel method, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Kernel_method

      Algorithms capable of operating with kernels include the kernel perceptron, support vector machines (SVM), Gaussian processes, principal components analysis (PCA), canonical correlation analysis, ridge regression, spectral clustering, linear adaptive filters and many others.

[14] CSDN博客,2016-12-20,Bootstrapping

https://blog.csdn.net/yimingsilence/article/details/53770784

[15] Bootstrapping, From Wikipedia, the free encyclopedia

https://en.wikipedia.org/wiki/Bootstrapping

[16] Bootstrap asymptotics. Encyclopedia of Mathematics.

http://www.encyclopediaofmath.org/index.php?title=Bootstrap_asymptotics&oldid=37732

        

友情推荐:

[1] 杨立坚,2018-08-15,统计学视角1:从包办婚姻(线性回归)到开放式婚姻(机器学习)

http://blog.sciencenet.cn/blog-941132-1129277.html

[2] EFRON B,HASTIE T. Computer age statistical infer-ence: Algorithms, Evidence and Data Science[M]. Cambridge University Press,2016.

https://web.stanford.edu/~hastie/CASI/

              

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1129894.html

上一篇:宇宙奥秘:ONPXNORMALBOXCOXLOG
下一篇:[求助] 美国记者麦隆内夫人 Marie Mattingly Meloney 的照片
收藏 IP: 202.113.11.*| 热度|

7 檀成龙 郑永军 张忆文 赫荣乔 刘全慧 栗茂腾 ljxm

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-19 18:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部