moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

气温数据:模型拟合与研究反思

已有 8240 次阅读 2021-6-16 23:54 |系统分类:科研笔记

我在科学网上看到一篇博文,介绍用月份、时辰拟合气温的情况,并附了我国某地5年平均的数据表,作者欢迎大家用相应数据进行拟合(张学文, 2021a),颇感兴趣,就尝试做了统计分析。我没有任何气象学的专门知识,仅就数据本身做些分析,现报告出来,并提及自己的一些反思。

一、模型拟合

我采用SPSS 20进行数据分析。观察数据并结合常识,推测月份(M)与气温(T)、时辰(H)与气温均非线性关系,因此分别用气温、时辰预测气温,进行曲线回归(含线性模型)。

(一)月份预测气温

线性模型:T = 3.089 + 0.777M, F(1,286) = 12.551, p < .001, R2 = .042;

对数模型:T = -5.600 + 8.251lnM, F(1,286) = 75.137, p < .001, R2 = .208;

倒数模型:T = 16.004 - 30.401/M, F(1,286) = 149.150, p < .001, R2 = .343;

二次模型:T = -32.575 - 1.176M2 + 16.062M, F(2,285) = 2206.979, p < .001, R2 = .939;

三次模型:T = -26.873 - 0.042M3 - 0.361M2 + 11.655M, F(3,284) = 1768.004, p < .001, R2 = .949(拟合曲线见图1)。

                   image.png               image.png 

         图1 月份预测气温的拟合曲线                  2 时辰预测气温的拟合曲线

由拟合曲线及统计指标可知,二次模型的效果最好——三次模型多出一个三次项,仅比二次模型多解释 .010的方差,从模型的简洁性考虑,可以不采用三次模型。

(二)时辰预测气温

线性模型:T = 5.674 + 0.197H, F(1,286) = 3.153, p = .077, R2 = .011;

对数模型:T = 4.424 + 1.629lnH, F(1,286) = 2.958, p = .087, R2 = .010;

倒数模型:T = 8.790 - 4.120/H, F(1,286) = 1.198, p = .275, R2 = .004;

二次模型:T = 3.519 - 0.020H2 + 0.695H, F(2,285) = 2.188, p = .114, R2 = .015;

三次模型:T = 8.229 - 0.005H3 + 0.181H2 - 1.359H, F(3,284) = 2.559, p = .055, R2 = .026(拟合曲线见图2)。

由拟合曲线及统计指标可知,时辰与气温的拟合关系均不理想。

(三)月份、时辰预测气温

虽然时辰不能有效预测气温,但是,不妨把月份、时辰两个因素一起考虑,用来进行模型拟合。通过回归分析,得到

T = -35.043 - 1.176M2 + 16.062M + 0.197H, F(3,284) = 1808.250, p < .001, R2 = .950, 各个系数均显著(|t| > 7.890, p < .001)。

通过比较可知,加入时辰,解释的方差增加了 .011,月份的二次项、一次项系数均未改变,只是调整了常数项。

(四)模型的预测效果

运用上述模型估计气温,并计算估计的误差,结果见表1

                                                  表1 我国某地的气温资料、模型估计数据及估计误差

                 全距     最小值      最大值      均值      标准差

  实际气温                  41.00                -14.00                     27.00                     8.14                    13.11

  估计气温        44.48                -19.96                     24.52                     8.14                    12.78

  估计误差        13.71                 -7.19                        6.52                     0.00                      2.92

    由表1可知,估计的气温均值与实际气温均值相同,标准差有所减小,全距有所增大,最小值、最大值向低端偏移。

    估计误差按照小于1、大于6及介于1-6之间以1为间隔进行分组,计算估计误差的分布百分比,见表2。 

2 估计误差分布的百分比

                                       < 1          1-2           2-3          3-4               4-5             5-6        > 6

%          24.0               20.5                22.9                13.9             10.4               4.5              3.5

    由表2可知,有67.4%的估计误差小于3度,估计误差大于5度的为8%。鉴于该地气温差异很大(标准差大于均值),由估计误差的分布来看,拟合的模型很好。 

二、研究反思

通过统计分析,得到了用月份和时辰预测我国某地气温的公式,由R2 = .950和误差分布来看总体效果令人满意,即用一个相对简单的二次模型可以概括或表征该地月份、时辰与气温之间的关系。 

数据拥有者根据专业知识,先后得到两个公式,分别为T = 8.1 + 18 × sinδ + 6.5 × cosωT = 8.1 + (18 × sinδ) / 0.39 + 6.5 × cosω,其中δ是赤纬,变化于正负23.5度之间;ω是时角,变化于0-360度(0-24小时)之间;并且,8.1、 18、 6.5 分别是该地的平均气温、月气温的平均年变化,气温的平均日变化值;同时,两个公式的误差平均值分别是7.89度和5.36度(张学文,2021a, 2021b

本人不知道赤纬、时角的数据是否容易取得,数据表中没有呈现对应的数据。从专业的角度讲,上述两个公式很有价值,特别是3个参数均有实际意义,十分难得。不过,从直观性上讲,我这里拟合的公式可能更容易使用,因为只需已有的月份和时辰即可,不用查找或计算赤纬、时角的数据。

数据拥有者希望拟合一个公式压缩用表表达关系的数据量(张学文,2021a),显然这是可以做到的。然而,用公式表达,误差较大的问题是不能忽略的。这恐怕反映的是影响气温的因素较多的问题,仅用固定的月份和时辰似乎只能做到整体上良好的程度。这其实提示了统计技术的问题,即统计分析涉及的是整体情况,并不针对单一个体。我所熟悉的心理学研究正是这样,即依靠统计分析得到结果、结论,能够很好地反映整体情况,却不太适合个体情况。这是一个特别需要引起注意的方法学问题。

致谢:感谢张学文先生允许使用博文中的数据。

参考文献

张学文.(2021a).2元函数的初步拟合实验1(各月各小时气温).科学网博客http://blog.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=1290251.

张学文.(2021b).思路:2元函数的初步拟合实验:3(各月各小时气温).科学网博客http://blog.sciencenet.cn/blog-2024-1290956.html.



https://blog.sciencenet.cn/blog-2619783-1291502.html

上一篇:道德判断的基础:客观规则还是主观标准
下一篇:有意义生活的本质:在生活中体现主体性
收藏 IP: 113.13.46.*| 热度|

13 武夷山 郑永军 刘秀梅 张学文 檀成龙 关蕾蕾 宁利中 杨正瓴 范振英 李学宽 钟定胜 杜占池 张鹰

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 23:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部