||
“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试
昨天的博文,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?实际上是牛顿 2004年春天的告诉我的。不妨称之为“牛顿猜想”。该猜想的打击面很大,要是错了的话,请去找牛顿算账!
“没有大胆的猜测就没有伟大的发现。No great discovery was ever made without a bold guess.”网传这是牛顿(Sir Isaac Newton)的名言。可惜俺不知道原始的出处?是不是牛顿真的说过这句话?
No great discovery was ever made without a bold guess. Isaac Newton
https://www.azquotes.com/quote/436927
“牛顿猜想”的基本含义:
在当前流行的数据挖掘、大数据里,往往一开始需要进行“数据的预处理”。这里包含一类常见的做法:原始数据的“归一化 Normalization”或“标准化 Standardization”。线性方法是常用的。即使采用线性方法的预处理,也会给非线性系统的数据处理带来额外的误差(通常是个不太大的误差)。
我们以前的研究表明[4,5],采用非线性的变换,对含噪声的实际数据处理,会引起一个不太大的系统偏差(误差)。
对偶地,对于非线性系统,变量进行线性变换后,是否也会引起一定的额外误差?
我们的这个疑问,和2004年初的“牛顿猜想”很类似。
昨天,包括“美国统计协会会士,国际数理统计学会会士,国际统计学会当选会员”的清华大学教授杨立坚老师,也倾向于认为我们的“怀疑是对的。”
下面是一个“糟糕”的确定型数学证明(?):
上面的推导,好像不甚严谨。更糟糕的词不达意:
不能准确表示“线性归一化 Normalization、标准化 Standardization 会引起非线性事物处理的额外误差。”权当研究过程吧!
贴出来,以期抛砖引玉!
另一类是“概率型”的证明,类似我们前几年[4, 5]的结果。
相关链接:
[1] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Normalization 是否会引起额外的误差?
http://blog.sciencenet.cn/blog-107667-1295337.html
[2] 2020-01-15,标幺值和有名值、缩放和中心化;非线性与随机性;额外误差
http://blog.sciencenet.cn/blog-107667-1214367.html
[3] 2018-06-21,慎用“机器学习中的数据预处理:缩放和中心化”
http://idea.cas.cn/viewdoc.action?docid=63578
http://blog.sciencenet.cn/blog-107667-1132083.html
[4] 对数变换下非平稳时间序列预测误差的解析分析[J]. 计算机应用与软件, 2015, 32(12): 38-41.
http://gfffxaa7a0cc611944276hqcbo9wkv5vpp6v9b.ffhh.eds.tju.edu.cn/Qikan/Article/Detail?id=667626400
[5] Removing forecasting errors with white Gaussian noise after square root transformation. Journal of Forecasting, 2016, 35(8): 741-750.
http://gfffxfd15bbe439b44164skc960obpvwuv6uqk.ffhh.eds.tju.edu.cn/doi/full/10.1002/for.2407
[6] 超过指数增长速度的年度用电量曲线拟合预测[J]. 天津大学学报自然科学与工程技术版, 2008, 41(11): 1299-1302.
http://gfffxaa7a0cc611944276hkc960obpvwuv6uqk.ffhh.eds.tju.edu.cn/Qikan/Article/Detail?id=28679703
附录A 灰色预测准确可靠的2方面理论基础
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 14:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社