求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试

已有 2736 次阅读 2021-7-14 15:59 |个人分类:各类科技猜想和建议|系统分类:科研笔记

归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试

                   

   昨天的博文,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?实际上是牛顿 2004年春天的告诉我的。不妨称之为“牛顿猜想”。该猜想的打击面很大,要是错了的话,请去找牛顿算账!

   “没有大胆的猜测就没有伟大的发现。No great discovery was ever made without a bold guess.”网传这是牛顿(Sir Isaac Newton)的名言。可惜俺不知道原始的出处?是不是牛顿真的说过这句话?

Isaac Newton   No great discovery was ever made without a bold guess_副本.jpg

No great discovery was ever made without a bold guess. Isaac Newton

https://www.azquotes.com/quote/436927

                       

   “牛顿猜想”的基本含义:

   在当前流行的数据挖掘、大数据里,往往一开始需要进行“数据的预处理”。这里包含一类常见的做法:原始数据的“归一化 Normalization”或“标准化 Standardization”。线性方法是常用的。即使采用线性方法的预处理,也会给非线性系统的数据处理带来额外误差(通常是个不太大的误差)。

   我们以前的研究表明[4,5],采用非线性的变换,对含噪声的实际数据处理,会引起一个不太大的系统偏差(误差)。

   对偶地,对于非线性系统,变量进行线性变换后,是否也会引起一定的额外误差?

   我们的这个疑问,和2004年初的“牛顿猜想”很类似。

  

   昨天,包括“美国统计协会会士,国际数理统计学会会士,国际统计学会当选会员”的清华大学教授杨立坚老师,也倾向于认为我们的“怀疑是对的。”

杨立坚 2021-7-14 09 20 回归分析中常用的Variance-Stabilizing Transform.jpg

   

下面是一个“糟糕”的确定型数学证明(?):

(牛顿猜想)的一个糟糕证明尝试.jpg

   上面的推导,好像不甚严谨。更糟糕的词不达意:

   不能准确表示“线性归一化 Normalization、标准化 Standardization 会引起非线性事物处理的额外误差。”权当研究过程吧!

   贴出来,以期抛砖引玉!

             

   另一类是“概率型”的证明,类似我们前几年[4, 5]的结果。

              

相关链接:

[1] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Normalization 是否会引起额外的误差?

http://blog.sciencenet.cn/blog-107667-1295337.html

[2] 2020-01-15,标幺值和有名值、缩放和中心化;非线性与随机性;额外误差

http://blog.sciencenet.cn/blog-107667-1214367.html

[3] 2018-06-21,慎用“机器学习中的数据预处理:缩放和中心化”

http://idea.cas.cn/viewdoc.action?docid=63578

http://blog.sciencenet.cn/blog-107667-1132083.html

[4] 对数变换下非平稳时间序列预测误差的解析分析[J]. 计算机应用与软件, 2015, 32(12): 38-41.

http://gfffxc1d129f57bb244a4sqcbo9wkv5vpp6v9b.ffhh.eds.tju.edu.cn/KCMS/detail/detail.aspx?dbname=cjfd2015&filename=jyrj201512011&dbcode=cjfq

http://gfffxaa7a0cc611944276hqcbo9wkv5vpp6v9b.ffhh.eds.tju.edu.cn/Qikan/Article/Detail?id=667626400

http://gfffx42fb323146574b21hqcbo9wkv5vpp6v9b.ffhh.eds.tju.edu.cn/detail_38502727e7500f269eecba8cd75afd5fd947cd2b58d3f7ff1921b0a3ea255101fc1cf1fbb4666ae64c8f6b446a9a95fac4c3b94ad4c48b9bc9b8736b5cef0200a7b69730d80283415119fc140f5c5cf8

[5] Removing forecasting errors with white Gaussian noise after square root transformation. Journal of Forecasting, 2016, 35(8): 741-750.

http://gfffxfd15bbe439b44164skc960obpvwuv6uqk.ffhh.eds.tju.edu.cn/doi/full/10.1002/for.2407

[6] 超过指数增长速度的年度用电量曲线拟合预测[J]. 天津大学学报自然科学与工程技术版, 2008, 41(11): 1299-1302. 

http://gfffxc1d129f57bb244a4skc960obpvwuv6uqk.ffhh.eds.tju.edu.cn/KCMS/detail/detail.aspx?dbname=cjfd2008&filename=tjdx200811007

http://gfffxaa7a0cc611944276hkc960obpvwuv6uqk.ffhh.eds.tju.edu.cn/Qikan/Article/Detail?id=28679703

http://gfffx42fb323146574b21hqcbo9wkv5vpp6v9b.ffhh.eds.tju.edu.cn/detail_38502727e7500f2615d87e6b770a4a8df9bef6a5d416e72a1921b0a3ea255101fc1cf1fbb4666ae667f2d1b154d11c084034e6ce2370250f39a1eea96e1a8c9736bfe2f912149af44a3c1046d938e73e

附录A 灰色预测准确可靠的2方面理论基础

杨正瓴 2008 附录A 灰色预测准确可靠的2方面理论基础 11 (左栏).jpg

杨正瓴 2008 附录A 灰色预测准确可靠的2方面理论基础 22 (右栏).jpg

                                       

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1295438.html

上一篇:[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?
下一篇:对2008年《超过指数增长速度的年度用电量曲线拟合预测》一文的一点说明
收藏 IP: 202.113.11.*| 热度|

11 李宏翰 尤明庆 许培扬 郑永军 李毅伟 杨学祥 范振英 闻宝联 张忆文 宁利中 刘钢

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 14:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部