|
我在科学网上看到一篇博文,介绍用月份、时辰拟合气温的情况,并附了我国某地5年平均的数据表,作者欢迎大家用相应数据进行拟合(张学文, 2021a),颇感兴趣,就尝试做了统计分析。我没有任何气象学的专门知识,仅就数据本身做些分析,现报告出来,并提及自己的一些反思。
一、模型拟合
我采用SPSS 20进行数据分析。观察数据并结合常识,推测月份(M)与气温(T)、时辰(H)与气温均非线性关系,因此分别用气温、时辰预测气温,进行曲线回归(含线性模型)。
(一)月份预测气温
线性模型:T = 3.089 + 0.777M, F(1,286) = 12.551, p < .001, R2 = .042;
对数模型:T = -5.600 + 8.251lnM, F(1,286) = 75.137, p < .001, R2 = .208;
倒数模型:T = 16.004 - 30.401/M, F(1,286) = 149.150, p < .001, R2 = .343;
二次模型:T = -32.575 - 1.176M2 + 16.062M, F(2,285) = 2206.979, p < .001, R2 = .939;
三次模型:T = -26.873 - 0.042M3 - 0.361M2 + 11.655M, F(3,284) = 1768.004, p < .001, R2 = .949(拟合曲线见图1)。
图1 月份预测气温的拟合曲线 图2 时辰预测气温的拟合曲线
由拟合曲线及统计指标可知,二次模型的效果最好——三次模型多出一个三次项,仅比二次模型多解释 .010的方差,从模型的简洁性考虑,可以不采用三次模型。
(二)时辰预测气温
线性模型:T = 5.674 + 0.197H, F(1,286) = 3.153, p = .077, R2 = .011;
对数模型:T = 4.424 + 1.629lnH, F(1,286) = 2.958, p = .087, R2 = .010;
倒数模型:T = 8.790 - 4.120/H, F(1,286) = 1.198, p = .275, R2 = .004;
二次模型:T = 3.519 - 0.020H2 + 0.695H, F(2,285) = 2.188, p = .114, R2 = .015;
三次模型:T = 8.229 - 0.005H3 + 0.181H2 - 1.359H, F(3,284) = 2.559, p = .055, R2 = .026(拟合曲线见图2)。
由拟合曲线及统计指标可知,时辰与气温的拟合关系均不理想。
(三)月份、时辰预测气温
虽然时辰不能有效预测气温,但是,不妨把月份、时辰两个因素一起考虑,用来进行模型拟合。通过回归分析,得到
T = -35.043 - 1.176M2 + 16.062M + 0.197H, F(3,284) = 1808.250, p < .001, R2 = .950, 各个系数均显著(|t| > 7.890, p < .001)。
通过比较可知,加入时辰,解释的方差增加了 .011,月份的二次项、一次项系数均未改变,只是调整了常数项。
(四)模型的预测效果
运用上述模型估计气温,并计算估计的误差,结果见表1。
表1 我国某地的气温资料、模型估计数据及估计误差
全距 最小值 最大值 均值 标准差
实际气温 41.00 -14.00 27.00 8.14 13.11
估计气温 44.48 -19.96 24.52 8.14 12.78
估计误差 13.71 -7.19 6.52 0.00 2.92
由表1可知,估计的气温均值与实际气温均值相同,标准差有所减小,全距有所增大,最小值、最大值向低端偏移。
估计误差按照小于1、大于6及介于1-6之间以1为间隔进行分组,计算估计误差的分布百分比,见表2。
表2 估计误差分布的百分比
< 1 1-2 2-3 3-4 4-5 5-6 > 6
% 24.0 20.5 22.9 13.9 10.4 4.5 3.5
由表2可知,有67.4%的估计误差小于3度,估计误差大于5度的为8%。鉴于该地气温差异很大(标准差大于均值),由估计误差的分布来看,拟合的模型很好。
二、研究反思
通过统计分析,得到了用月份和时辰预测我国某地气温的公式,由R2 = .950和误差分布来看,总体效果令人满意,即用一个相对简单的二次模型可以概括或表征该地月份、时辰与气温之间的关系。
数据拥有者根据专业知识,先后得到两个公式,分别为T = 8.1 + 18 × sinδ + 6.5 × cosω和T = 8.1 + (18 × sinδ) / 0.39 + 6.5 × cosω,其中δ是赤纬,变化于正负23.5度之间;ω是时角,变化于0-360度(0-24小时)之间;并且,8.1、 18、 6.5 分别是该地的平均气温、月气温的平均年变化,气温的平均日变化值;同时,两个公式的误差平均值分别是7.89度和5.36度(张学文,2021a, 2021b)。
本人不知道赤纬、时角的数据是否容易取得,数据表中没有呈现对应的数据。从专业的角度讲,上述两个公式很有价值,特别是3个参数均有实际意义,十分难得。不过,从直观性上讲,我这里拟合的公式可能更容易使用,因为只需已有的月份和时辰即可,不用查找或计算赤纬、时角的数据。
数据拥有者希望拟合一个公式压缩用表表达关系的数据量(张学文,2021a),显然这是可以做到的。然而,用公式表达,误差较大的问题是不能忽略的。这恐怕反映的是影响气温的因素较多的问题,仅用固定的月份和时辰似乎只能做到整体上良好的程度。这其实提示了统计技术的问题,即统计分析涉及的是整体情况,并不针对单一个体。我所熟悉的心理学研究正是这样,即依靠统计分析得到结果、结论,能够很好地反映整体情况,却不太适合个体情况。这是一个特别需要引起注意的方法学问题。
致谢:感谢张学文先生允许使用博文中的数据。
参考文献
张学文.(2021a).2元函数的初步拟合实验1(各月各小时气温).科学网博客http://blog.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=1290251.
张学文.(2021b).思路:2元函数的初步拟合实验:3(各月各小时气温).科学网博客http://blog.sciencenet.cn/blog-2024-1290956.html.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 23:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社