|||
寻找统计经验公式的一些体会
张学文,20151023
现在统计软件很多,搞一个数学公式几乎是小菜一碟。一元回归是最常用的,但是你把相关分析从1元变成多元,或者从变量本身,变成变量的平方/立方等等都不难。但是这里面依然包括物理与数学的基本考虑。搞不好自己反而为自己发现的优秀公式给骗了。下面说一点个人零散认识:
1. 仅分析单因子与变量的关系问题:此时如果样本只有2个,那么无论物理上如何错误,鉴于2点可以连(总是可以)一直线,所以做线性回归,它一定可以获得一个1元1次方程,而且R平方的值=1。即这种事没有意义,仅是数学娱乐。
2. 如果你有10对样本,而获得一个仅有两个参数的1次方程,并且R平方值比较大,这意味着10对数据被压缩为2个参数以后依然“差不多”,这就意味着你发现了一个规律(统计的)
3. 如果样本有100对,而方程依然是一次方程(两个参数),而R平方大于0.5,也是有启发的,以致是值得信赖的。
4. 总的原则是要在很多资料的验证下所获得的方程比较可信。而方程中的参数(系数值)越多,弹性越大,“凑”的成分就越大,即越不可靠。所以在没有物理提示下,经验方程越简单越好(包括的参数少,数学花样少(如取平方)。
5. 如果你从单变量提高到两个自变量,我认为样本个数应当在100个以上是比较可信的。类似地如果是3个独立变量,那么样本数应当在1000个以上比较可信。
6. 如果你以x为自变量,并且又让x的平方,或者立方也作为自变量,参加你的统计分析,由于它们是x的函数,没有独立变量的资格,这样做基本是庸人自扰(除非你从物理上有明确依据,--—而这时也无需统计分析了)。所以你应当努力寻找本问题中的彼此独立而且又与预测变量有关的变量,而不是拿一个变量换上不同的服装同时登场。
7. 想想还有很多值得注意的环节,这里先谈这些吧。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社