threecifanggen的个人博客分享 http://blog.sciencenet.cn/u/threecifanggen

博文

R语言学习过程

已有 7212 次阅读 2014-8-26 12:54 |个人分类:技术宅|系统分类:科研笔记| 语言, 统计, 学习, 程序

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!严 禁 转 载 !!!!!!!!!!!!!!!!! !!!!!!!!!!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

另:知乎上相通答案为本人攥写

http://www.zhihu.com/question/22960102/answer/29618585?group_id=774622053


学R主要在于5点三阶段:

第一阶段有一点:基础的文件操作(read.*, write.*)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包括which, []等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, *, / , %%, %/%等)、转换(as.*)、修改(edit, fix等)数据(包括单个数、行、列、表、变量),安装包、调用包以及session的保存。完成这一阶段,你就大致能像excel里处理数据一样了。

第二阶段有三点:
1、学习统计。这是贯穿整个R学习的最重要的一部,很多时候你并不是不知道在哪里找,怎么使用某个函数的参数,更多的时候你是不知道某个统计方法的原理,所代表的意义甚至不知道该用什么方法。所以学习统计学知识往往才是学习R的关键,之后找函数、怎么用其实都是傻瓜式的,并不需要你从头编写算法。这部分内容页要结合每个人要做的事做
2、批量处理。由于R和matlab一样,注重的是批量处理,而且R之中的循环往往效率极低,所以在R之中如果你发现你要使用双层循环的时候,就要想想了,有没有批量处理的方法。
a、首先,几乎所有的R里的运算符和自带的函数都是可以批量处理的。比如向量a+向量b是指每个元素按照index相加,所以就没必要for一下了;
b、其次,R自带有的apply族函数(因为是一系列以apply结尾的函数,所以称为apply族),split,以及aggregate函数。这三类就是R自带的批量处理的利器,学好这三类函数,基本就可以完成绝大部分的数据批量处理了。
c、然后就是reshape2包以及plyr包了,这是批量处理的两个利器,reshape主要是整形,plyr包基本提供了一套整理数据的理念,学好这两个包,批量处理将事半功倍。
d、在实际过程中,一些for还是无法避免的。这时候就要考虑用别的语言来处理这部分事情了。比较常用的方法就是用别的语言批量生成R的代码,还有就是直接用R调用别的语言处理的结果或者用别的语言调用R的处理结果。
3、绘图系统。总结而言,我们可以把R的绘图系统分成四个:Graphics, lattice,ggplot2以及grid。最好学习顺序也是按照这个来。
a、自带的绘图系统。这套系统可以完成最基本的事情,其操作也类似于matlab,可以看做是分步骤命令参数式绘图,基本就是将一系列作图看做一步步的命令,每一句都干一件事,然后通过参数调整其中的某个元素的大小、位置、颜色。
b、lattice。绘图逻辑也同上。只是加了分组绘图、facet的功能,这些都很实用,其目的就是讲自带函数中需要大量预处理以及多步绘图的命令用一行命令代替。上手也非常简单。
c、ggplot2.这是经典的R绘图包,绘图哲学是图层式的,理解成一个一个图层的覆盖。这个绘图系统能做很多事,而且其自带主题也相当漂亮。有一定的学习难度。以下就是我用ggplot画的图
d、grid。grid绘图系统算是最基元的绘图命令,很多指令都是从画圆、直线、矩形开始的,这算是R里最好理解但也是最复杂的绘图系统。适合想入深坑的人士学习,如果要自由创造一些新的图形,或者编写绘图包,这是必学的绘图系统。另一个值得说的就是grid中也有专门用来整理拼图的指令,这个对于有一些论文拼图需求的人来说还是学学比较好。

如果你完成了以上两个阶段,你已经可以在工作学习中完成绝大部分的工作。但如果你是知识的创造者,或者是个程序员,或者是要实践自己的算法、理论、统计方法、绘图方法,或者亦或是你只是脑抽了,那就要进入第三阶段的学习。这部分包括,C语言掌握与精通、R语言调试、改进、编写包、写一个地道的帮助文档、推销自己的想法。这一阶段完成了,你也就是一个R语言的大牛了。少年到处是你可以施展拳脚的地方。

由以上内容,可以基本上把学习路径总结为下图:

最后是学习资源的问题,总结如下:

1、课程类@uhuruqingcheng已经介绍的coursera上的课程的确很适合入门。
2、书籍类。建议入门用R语言实战 (豆瓣),然后想要快速指南式的了解R语言的统计应用也可以看复杂数据统计方法 (豆瓣) 。统计学的内容按照自己的需要自行补充,在这里就补推荐了,推荐了也是和R没啥关系的。绘图系统推荐两本书就够用了:ggplot2 (豆瓣)R Graphics Cookbook (豆瓣)这两本也都有中文版可以买到。如果这部分都已经学得不错了,其实你就不需要书了,直接看R的帮助文档吧,help()或者? XXX 都可以。在此建议用RStudio,可以帮助你很快的查看帮助,编写script、断点调试等等。
需要补充的是springer出了一系列叫Use R! - Springer 的书,一直有更新,也是免费获取的,大家可以自己下载。
3、网站类
一个是博客,以上已有推荐。
二是问答类的网站。Stack OverflowSegmentFault 都可以尝试一下,不过后者有一种山寨感。
三是R的journal。题主可以自行在google里搜索 R journal 第一个就是。
四是包和函数的搜索网站Search all R packages and function manuals 。 这个网站提供R里所有包和函数的搜索系统。其贴心之处还有(1)提供分类功能;(2)提供下载的排名,每个包的下载时间线。

此外,其实R语言是一门轻编程重统计的语言,所以题主完全不需要担心自己的编程基础。直接做几个小项目,你会很快上手,千万不要从教材第一页读到最后一页,那种效率极低,且容易半途而废。

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!严 禁 转 载 !!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!



https://blog.sciencenet.cn/blog-955638-822417.html

上一篇:学一点R语言吧
收藏 IP: 183.157.160.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 20:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部