求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

标幺值和有名值、缩放和中心化;非线性与随机性;额外误差

已有 2363 次阅读 2020-1-15 15:42 |系统分类:教学心得| 非线性, 随机性, 线性变换, 误差, 多元函数微分

汉语是联合国官方正式使用的 6种同等有效语言之一。请不要歧视汉语!

Chinese is one of the six equally effective official languages of the United Nations.

Not to discriminate against Chinese, please!

                                                     

标幺值和有名值、缩放和中心化;

非线性与随机性;额外误差

             

   从数学角度看,经过“减法”、“数乘”之后性质仍然不变的系统,一般为“线性系统 linear system”,即同时满足

①“叠加性 additivity or superposition principle”

    f(x+y) = f(x) + f(y),

②“齐次性 homogeneity”

    f(kx) = kf(x),k≠0是一个实数。

的系统f(·)。

    

   现实世界里的大多数事物都不具有线性性质。即“非线性”,不满足上面的一条或一条以上的性质。

   对于非线性,特别是带有噪声(随机性)的事物,经过线性变换(如标幺化 per-unit normalization,min-max 标准化 normalization,z-score 标准化 Stardardization,中心化/零均值化 Zero-centered,等)后,信息处理的结果可能会带有一定的额外的系统误差。

   简言之,非线性系统的全局分析时,如果变量使用了线性变换,可能会引起一定量额外的系统误差。好像现在大多数人还没有注意到这点。

     

温馨提醒:

   数据处理中常用的线性变换有:(1)标幺化 per-unit normalization,(2)min-max 标准化 normalization,(3)z-score 标准化 Stardardization,(4)中心化/零均值化 Zero-centered。

      

建议:

   对于具有较大波动性(或噪声)的非线性数据,用原始数据进行信息处理,从理论上看具有比“线性变换”后再处理具有更高的准确性。

   可惜目前许多方法不具有直接处理原始数据(如有名值)的良好能力。例如在多变量回归时,不采用标准化等的结果会更坏。原因似乎还不是很清楚,可能与统计量的“置信区间 confidence interval”、多元函数微分 multivariate  Function  Differential、有效数字位数 number of significant digits 等有关。再次呼吁大力发展“小样本统计学”!

        

推荐阅读:

[1] 邹德虎,2020-01-06,标幺值的必要性 精选

http://blog.sciencenet.cn/blog-3316223-1213112.html

[2] 2019-04-03,归一化(normalization)、标准化(standardization)以及正则化(regularization)比较

https://blog.csdn.net/Castlehe/article/details/88988267

[3] 2018-06-25,归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)

https://www.jianshu.com/p/95a8f035c86c

[4] Feb 2, 2018-02-02, Differences between normalization, standardization and regularization 

https://maristie.com/blog/differences-between-normalization-standardization-and-regularization/

[5] 2019-10-29,normalization, standardization and regularization

https://www.codetd.com/article/7677587

[6] 刘锐,2017-10-10,机器学习里的黑色艺术:normalization, standardization, regularization

https://zhuanlan.zhihu.com/p/29974820

相关链接:

[1] 2018-06-21,慎用“机器学习中的数据预处理:缩放和中心化”

http://idea.cas.cn/viewdoc.action?docid=63578

http://blog.sciencenet.cn/blog-107667-1132083.html

[2] 对数变换下非平稳时间序列预测误差的解析分析. 计算机应用与软件, 2015, 32(12): 38-41.

http://www.cnki.com.cn/Article/CJFDTotal-JYRJ201512011.htm

[3] Removing forecasting errors with white Gaussian noise after square root transformation. Journal of Forecasting, 2016, 35(8): 741-750.

https://onlinelibrary.wiley.com/doi/10.1002/for.2407

[4] 采用反正切变换降低小波去噪对野值的敏感性. 计算机工程与应用, 2017, 53(10): 241-245.

http://www.cnki.com.cn/Article/CJFDTotal-JSGG201710042.htm

[5] 2019-06-25,俺在《中科院科学智慧火花》贴出的帖子

http://blog.sciencenet.cn/blog-107667-1186809.html

[6] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”

http://blog.sciencenet.cn/blog-107667-1129894.html

[7] 2016-03-07,关于时间序列的“组合预测之谜 forecast combination puzzle”

http://blog.sciencenet.cn/blog-107667-961080.html

                  

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



http://blog.sciencenet.cn/blog-107667-1214367.html

上一篇:科技资助评价:到底要不要“同行评议”?(要点)(2)
下一篇:[困惑] “原创探索”到底评不评?怎么评?

9 苏保霞 王从彦 郑永军 邹德虎 张忆文 李学宽 朱晓刚 宁利中 杨立坚

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-2-22 03:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部