高山流水分享 http://blog.sciencenet.cn/u/friendpine 走在科学路上的一位无名侠客,只是静静的走着.........

博文

《Linear models with R 》学习笔记之一

已有 5873 次阅读 2011-6-2 21:44 |个人分类:统计学与R语言学习|系统分类:科研笔记| Linux, style, 笔记, Content

一本好的参考书不应该只告诉读者技术性或者知识性的东西,还应该把作者的思想和经验与读者交流。刚看了这本书第一章的前面几页就觉得这本书不错,因为作者告诉我们怎样成为一位合格的统计学家,而不是仅仅会用统计学作为工具。第一章的第一句话是这么说的:

Statistics starts with a problem, proceeds with the collection of data, continues with the data analysis and finishes with conclusions


问题很重要,甚至比解决问题还重要。这好像是爱因斯坦说的。有了问题之后需要思考怎样回答,即提出解决问题的思路。有了思路之后需要收集数据,以及基于这些数据进行统计学分析,最后得到了结论。


不管做什么分析明白分析的目的是至关重要的,这是做分析首先需要做的事情。当形成了思路,而且很清楚自己想达到怎样的目的之后,有针对性的收集数据。如果数据是自己收集的,自己肯定知道数据的来龙去脉,后续的分析也更有把握。然而大部分情况下,做统计分析的人是不太可能去收集原始数据的,这就要求在做分析前一定要仔细检查数据。这一步看起来很简单,但是却非常重要。如果有可能的话,了解数据是怎样收集而来的。作者举了一个例子说明这一步的重要性。该例子中血压数据的最小值是0,还有其他几个指标的最小值也是0.而根据我们的常识,这些指标是不可能为0的,因此需要思考为什么会这样。在该例子中,这些为0的值是一些缺失值,可能记录这些数据的人把缺失值记成了0,而这对于进行统计学分析是影响很大的。有的值是分类变量,用因子表示更好。如果不进行数据的检查,会形成错误的结论。

下面是一些作者提到的用来对数据做初步检查的函数:

1 summary()

该函数会给出变量的最小值,分位数值和均值。这对于初步了解数据是非常重要的。

2 hist()

该函数会画出直方图,表明数据的分布

3 plot (density (pima$diastolic, na . rm=TRUE) )

density()函数能够估计出变量的概率密度分布,比直方图更准确

4 plot (sort (pima$diastolic), pch=".")

给出数据排序之后的分布,如果是正态分布,这里的曲线应该是直线向上的。
4
把变量中的0值变为缺失值

pima$variable[pima$variable] <-NA

5 定量变量和分类变量的关系图

plot(quantitative,qualititative)会显示出分类变量每个类别下定量变量的分布,即它的最小值,最大值,分位数值等。

6 pairs()

pairs(pima)会显示出pima中各个变量两两间的散点图

7 abline()

abline()函数可以在已有的图上添加直线,可以有下面几种常用的形式:

1abline(a,b),其中ainterceptbslope

2abline(h=a), 这是指水平线,a是其对应的纵坐标;

3abline(v=a),这是指垂直线,a是其对应的横坐标;

4abline(coef=c(a,b)),ab分别是interceptslope


参考自 Julian J. Faraway <Linear models with R>



https://blog.sciencenet.cn/blog-54276-451019.html

上一篇:R中的排列组合,阶乘的计算
下一篇:R中的遗传算法
收藏 IP: 159.226.118.*| 热度|

2 田灿荣 高建国

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 20:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部