博文

吴诗玉：《第二语言加工及R语言应用》——心理语言学领域实证研究的必读书

已有 2953 次阅读 2021-8-2 10:48 |系统分类:科研笔记

吴诗玉教授的《第二语言加工及R语言应用》（外研社，2019）是为数不多的将R语言与心理语言学领域实证研究相结合的一部方法论专著。

这本专著主要参照Wickham & Grolemund (2017)的数据科学过程（导入-->整理-->转换、可视化、模型-->沟通）这一流程进行讲解。

值得一提的是，本书作者并没有像《R语言实战》一开始就介绍一些抽象的概念，比如向量、矩阵、数组和数据框，而是直接开门见山，介绍了R的数据的特征——长数据（long format）（p.11），而且强调R的每一列都是一个变量（variable），每一行都是一个观测值（observation）这是与SPSS的本质区别。可以说，本书作者是从初学者的角度来讲解R，让读者一目了然，而不至于一开始使用R就望而生畏或者不知所措。

第一章：R语言数据科学的亮点在于介绍了数据管理最重要的五大函数，比如研究者如果想把反应时（RT）转换为标准分（z分数），那就可以使用mutate函数。在读这本书的时候，我发现书后的参考文献也是非常重要的参考资料，可以说这本书的参考文献基本涵盖了R语言领域非常经典的著作。比如：

Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. CA: O’Reilly Media.

如果要深入学习数据管理的知识，比如在心理语言学里面，经常需要把语言成绩作为协变量（covariate）放入统计模型，这时候就可以使用Mutating Joins的相关函数，这一函数的使用在这本书里都有详细的解释。

第二章：数据探索：描述性统计和数据可视化。其中重点是介绍了使用tapply和aggregate函数来计算每一个实验条件下反应时的平均数和标准差，使用这两个函数，可以显著提升自己的工作效率。在数据可视化方面，本书作者简单介绍了ggplot2作图，其中比较重要的函数有stat_summary和position_dodge。不过ggplot2在本书的介绍非常有限（p.85），更多内容可以参考Hadley的如下代表作：

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis (Second Edition ed.). Switzerland: Springer.

从第三章开始，本书主要开始涉及一些统计学的重要概念和统计建模的步骤。第四章：使用R进行统计建模，可以说是本书最为重要的一章，因为这一章讲的内容主要是基于线性模型，其中提到了一些重要概念，比如交互效应，同时也介绍了数值型自变量做趋中处理（Centering）的方法、自变量为分类变量时的比较编码方案（contrast coding）和多重比较的方法（这一内容我觉得是最难的）、模型诊断与模型比较的方法这些都是为第六章：混合效应模型的学习打基础。

关于统计建模和混合效应模型，如果要更深入的理解，可以参考本书作者引用的一些经典专著：

Baayen, R. H. (2008). Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press.

Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: Sage.

Gries, S. T. (2013). Statistics for Linguistics with R: A Practical Introduction (2nd revised edition). Berlin/Boston: De Gruyter Mouton.

Winter, B. (2020). Statistics for Linguists: An Introduction Using R. New York and London: Routledge.

总的来说，这本书是一本非常适合心理语言学研究者进行R语言入门的书，因为这本书中的所有案例都是围绕心理语言学展开的（尤其是下篇：二语加工主题下 R应用）。

而且，本书的作者非常喜欢引用Gries (2013）的观点，这些观点对我们很有启发，比如本书第113页提到：

“二语研究经常碰到的一个问题是很多研究者经常把一个本来属于连续型的变量人为地转变成分类型变量，比如把被试分词高低水平组，把单词分成高低频率，然后进入统计模型，这么做不仅可能会导致失去很多重要的信息，而且由于增加了统计分析时的自由度，会导致更难获得显著的结果（Gries, 2013）。”

其中的代码也在外研社的官网上可以下载到，便于读者通过运行代码来更深刻地理解本书的内容。

*初稿完成于2020年10月，修订稿完成于2021年8月2日。

转载本文请联系原作者获取授权，同时请注明本文来自钱家骏科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2858329-1298005.html

上一篇：Coh-Metrix工具使用说明（英文版）
下一篇：关于社科基金申报的一些看法

收藏 IP: 101.88.94.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

钱家骏

扫一扫，分享此博文

MarkQian的个人博客分享 http://blog.sciencenet.cn/u/MarkQian

博文

吴诗玉：《第二语言加工及R语言应用》——心理语言学领域实证研究的必读书

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

钱家骏

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

MarkQian的个人博客分享 http://blog.sciencenet.cn/u/MarkQian

博文

吴诗玉：《第二语言加工及R语言应用》——心理语言学领域实证研究的必读书

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

钱家骏

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)