|||
一本好的参考书不应该只告诉读者技术性或者知识性的东西,还应该把作者的思想和经验与读者交流。刚看了这本书第一章的前面几页就觉得这本书不错,因为作者告诉我们怎样成为一位合格的统计学家,而不是仅仅会用统计学作为工具。第一章的第一句话是这么说的:
Statistics starts with a problem, proceeds with the collection of data, continues with the data analysis and finishes with conclusions。
问题很重要,甚至比解决问题还重要。这好像是爱因斯坦说的。有了问题之后需要思考怎样回答,即提出解决问题的思路。有了思路之后需要收集数据,以及基于这些数据进行统计学分析,最后得到了结论。
不管做什么分析,明白分析的目的是至关重要的,这是做分析首先需要做的事情。当形成了思路,而且很清楚自己想达到怎样的目的之后,有针对性的收集数据。如果数据是自己收集的,自己肯定知道数据的来龙去脉,后续的分析也更有把握。然而大部分情况下,做统计分析的人是不太可能去收集原始数据的,这就要求在做分析前一定要仔细检查数据。这一步看起来很简单,但是却非常重要。如果有可能的话,了解数据是怎样收集而来的。作者举了一个例子说明这一步的重要性。该例子中血压数据的最小值是0,还有其他几个指标的最小值也是0.而根据我们的常识,这些指标是不可能为0的,因此需要思考为什么会这样。在该例子中,这些为0的值是一些缺失值,可能记录这些数据的人把缺失值记成了0,而这对于进行统计学分析是影响很大的。有的值是分类变量,用因子表示更好。如果不进行数据的检查,会形成错误的结论。
下面是一些作者提到的用来对数据做初步检查的函数:
1
summary()
该函数会给出变量的最小值,分位数值和均值。这对于初步了解数据是非常重要的。
2
hist()
该函数会画出直方图,表明数据的分布
3
plot (density
(pima$diastolic, na . rm=TRUE) )
density()函数能够估计出变量的概率密度分布,比直方图更准确
4
plot (sort
(pima$diastolic), pch=".") 给出数据排序之后的分布,如果是正态分布,这里的曲线应该是直线向上的。 pima$variable[pima$variable]
<-NA 5
定量变量和分类变量的关系图 plot(quantitative,qualititative)会显示出分类变量每个类别下定量变量的分布,即它的最小值,最大值,分位数值等。 6
pairs() pairs(pima)会显示出pima中各个变量两两间的散点图 7
abline() abline()函数可以在已有的图上添加直线,可以有下面几种常用的形式: 1)abline(a,b),其中a是intercept,b是slope 2)abline(h=a),
这是指水平线,a是其对应的纵坐标; 3)abline(v=a),这是指垂直线,a是其对应的横坐标; 4)abline(coef=c(a,b)),a,b分别是intercept和slope 参考自 Julian J. Faraway <Linear models with R>
4
把变量中的0值变为缺失值
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 12:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社