寻正
【寻正按:本文保留版权,任何媒体,包括常规出版业、网络媒体、博客等,没有获得授权,不得转载它处。在本书未完成之前,中国科学网博客是我唯一登载此系列内容的媒体。】
当我在格物致知一节中介绍我因为前辈努力而拥有了摇统计分析的木牛流马,就是指计算机时代的统计分析程序。这样的程序太多了,我不可能一一涉及,也没有必要一一涉及。对于做研究的笨鸟们来说,他们有了问题,需要一个解决方案,并不需要对比各个统计软件的优劣,事实上,对于同样的数据,采用同样的分析模型,也不允许不同的统计软件得到不同的结论。
由于本书的目的是为研究者提供简单易行的操作指南,我有意识地选择了如下统计分析模块作为笨鸟们按图索骥的基础。SAS、SPSS、与Stata入选是因为它们流行,而WinIDAMS、PSPP、SOFA与R入选则是因为它们属于免费软件。在选择免费软件时,我尽量选择拥有全面功能的统计分析软件,读者需要理解,在此之外,尚未有一些特别模块,比如计算样本量的PS软件,值得读者尝试。【对于感兴趣的读者,推荐观阅
StatPages.org针对免费统计软件的列表 。】
在我开始写本书时,我尚不熟悉所列举的免费软件,但我愿意用实际例证,向读者表明,如果你掌握了本书的基本概念,注重应用,而不是那复杂的统计学的机械计算程序,你也会象我一样,玩转统计分析的木牛流马。当然,我们这样玩的基础是对开发这些软件的专业人员的充分信任:如果我们提供了适当的数据输入,选择了适当的统计模块,他们的软件就会产生一致的分析结果——这一点,大家在细读本书的例证操作时就可以一次又一次地验证。
不同的统计程序有不同的特色,比如使用SAS软件,我就不喜欢亚分(Subset)现有数据库,觉得麻烦,而采用Stata时,就没有亚分的概念,而是可以针对同一数据库采用if限制选择亚样本。之所以不把这种区别称为优缺点,而只是特色,是因为对于熟练的用户来说,这两种方式几乎没有区别,亚分在工作目录里的数据文件只是临时性的,并不占据空间,跟Stata临时选择样本是异曲同工。
或许对一个能熟练使用各种统计软件的人来说,这些软件都有优劣,但对于实验室的笨鸟来说,那是镜花水月,优点未必让你受益,缺点也似乎无伤大雅,我们还是回到写作与阅读本书的底线上来:如果一项统计分析太复杂,你需要咨询统计专家,让专家做适当的统计分析,你的目标是采用统计程序,做一些力所能及的简单统计分析——许多人最终会惊奇原来许多统计计算自己也能胜任。
我在1990年代专门修过一门课程,是SAS的应用。在那一门课中,我几乎没有机会真正地应用SAS来做统计分析,绝大部分时间,都花在学习SAS的数据管理。许许多多的人,都恐怕难以理解为什么枯燥的数据管理是如此重要,事实上,在我没有向人提供统计分析服务前,也或多或少心存疑虑。一旦我开始向研究者提供如此服务,我就意识到了数据收集管理的重要性,在我提供的统计分析服务中,超过半数的时间在指导顾客如何收集数据或者浪费在有缺陷的数据中。不久前,我就为一位顽固的拒不理解分析单元这一基本概念的顾客而灰心丧气,为他提供统计分析的时间,不到向他解释示范数据收集的1/5。
如果是一位统计专家撰写本节内容,接下来的任务就是针对各个软件的安装与设置详细地一一介绍。我决定不那么做,因为那样存在着两个风险,一是信息过量(Information
Overload),我撰写本书的宗旨就是回避统计分析无所不在的复杂,需要证明的是不知其所以然也能做出适当的统计分析来,我需要读者始终保持阅读本书的轻松状态,你会骑自行车吗?统计分析的木牛流马的操作远比骑自行车简单多了,前提是要象你骑自行车一样,谁在乎自行车的所有机械原理?如果某个国家立法不懂自行车原理就不准骑,你一定认为该国立法人员有病。如何安装软件与设置,对于那些真正想应用本书内容的人来说,应当已经不成为问题,如果是问题,则可以在网络上搜索,这样的指南应当随手可得。
其次是我不希望本书枯燥无味,让读者在兴致既起之际,忽然被一堆技术细节浇上一盆冷水。我们会征服这些技术细节,但不是简单地堆砌,让读者迷失在术语与机制的迷宫中。在本节的附录中,我简单介绍各个统计软件的获取与安装,挂一漏万,如果有问题在交流中解决。
现在我们的注意力转到一个具体的问题上来,那就是,“我需要安装什么系统?”我为你提供了六个备选项,你究竟需要选哪一个,还是六个都选?
如果你经费允许,可以选择付费程序,否则免费程序可以达到同样的目的,学习成本不会相差太大。SAS的收费策略是细水长流,每年都要更新执照,而Stata是一杆子买卖,一次收费很多,但终生使用,不过,隔几年又出新版本,让你陷入To
upgrade or not to upgrade(更新或不更新)的超级困惑中。那么SPSS呢,好象两种策略都在使用,价格跟SAS与Stata不相上下。不过,好消息是,有人不满SPSS的价格,开发了一个替代产品,称为PSPP,PSPP与SPSS肯定有些差距,但对于我的读者来说,有跟没有一样。不过,PSPP是GNU软件,需要在GNU/Linux系统中运行。
在我所提供的四项分析软件中,SOFA与R同时有Linux版本与Windows版本。我欣赏开源软件的理念,因此,相关例证全经Linux系统产生,以平衡付费软件都是基于Windows的这一倾向。开源系统比如Ubuntu的图形界面已经做得很不错了,Windows下对应的绝大多数程序都有了对应,强烈推荐读者在新配置的机器上使用开源系统。
在免费软件中,R可能要艰深一些,是属于专业级的软件,很多统计专业人员都用它,R现在已经有了图形界面,但可能更方便写程序。联合国教科文组织的WinIDAMS相当于SAS没有图形界面。PSPP与SOFA则有图形界面,相对而言,可能更易操作。如果你真心要使用这些软件,其实有没有图形界面关系不是很大,并不增加多少学习成本。
每一种软件都有自己的操作习惯与基本概念,虽然从一种软件跳到另一种软件并不困难,但读者基于实用目的,只需要掌握一种软件即可。如果强行要我对于从未接触过统计软件的人进行推荐,我推荐R,因为掌握这门技能具有更大的扩充性,放在简历上比较体面。
统计学是纯西方发展起来的学科,读者不可避免地要掌握英文词汇,对此我只能建议读者咬牙忍受,习惯了就不觉只有方块字才美。为了增长读者英文知识,我也尽量详注相关英文词汇,增加读者理解专业文献的能力。
【寻正按:本文保留版权,任何媒体,包括常规出版业、网络媒体、博客等,没有获得授权,不得转载它处。在本书未完成之前,中国科学网博客是我唯一登载此系列内容的媒体。】
2012.05.03
转载本文请联系原作者获取授权,同时请注明本文来自廖俊林科学网博客。 链接地址: https://blog.sciencenet.cn/blog-460310-566773.html
上一篇:
研究室的笨鸟(1) 格物以致知 下一篇:
研究室的笨鸟(2)附:统计软件的安装概要