hqsong的个人博客分享 http://blog.sciencenet.cn/u/hqsong

博文

[转载]从统计学上如何分辨两组数据有明显差异?

已有 22532 次阅读 2020-6-25 11:41 |系统分类:科研笔记|文章来源:转载

在数据分析过程中,你可能会经常遇到一个问题,比如你统计了上个月和这个月的活跃度平均值,你发现这个月的平均值比上个月有增长,但是这个增长是足够大,是本质的变化呢,或者只是随机的波动呢?你应该不应该向领导和同事报喜呢?是沾沾自喜还是真的有了重大突破,值得发奖金呢?这个时候就需要用到统计检验。下面就介绍几组适合不同数据的统计检验方法。

一 T检验,用于正态分布的参数检验

检验两组独立样本平均值是否相同,只用于连续变量

主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。

只适用于连续变量,在一定区间内可以任意取值的变量连续变量,其数值是连续不断的,相邻两个数值可作无限分割。简单粗暴的说,就是某个变量可以保留小数点后几位。比如,高考成绩。

一般我们接触数值都是连续变量,而且正态分布,因此T检验是非常常用的一种参数检验的方法。

1.独立样本T检验(Independent Sample T Test)

检测两个对象或者两种事务在同一时间的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。

比如,有一组男生高考成绩,36个样本;有一组女生高考成绩,42个样本。

这两组数据是不同对象(不同性别组),在同一个时间高考成绩。我们想了解男生女生的平均成绩是否相同。

此时可采用独立样本T检验来分辨两组数据(视为两个子总体)的均值是否相同。

2.配对样本T-test(配对样本T检验)

检测同一对象或者同一事务在两种条件的平均收入、平均得分、平均工资、平均利润、平均奖金等异同。

比如,我们开头提出的问题。我们有某个APP上个月每天的日活跃度,还有某个APP这个月每天的日活跃度。我们想知道这两个月APP平均日活跃度是否相同。这样的情况就可以用配对样本T检验

如果通过统计检验,发现平均日活跃度下降了,但是平均值和上个月没有明显的不同,就没有必要太沮丧,说明这个波动还在比较正常的范围。如果这个月日活跃度平均值和上个月有明显的差异,而且低于上个月,那么就需要特别注意运营或者产品设计了。如果有明显差异,而且还是高于上个月的,就可以向领导同事报喜了。

非参数检验,检验两组或者多组样本分布是否相同,适用于所有类型变量

非参数检验是不必假设样本呈现何种分布。如果已知道样本呈现何种分布就用对应的参数检验;如果不确定样本是否正态分布,也可以采用参数检验。

非参数检验适用于以下所有类型的变量。

(1)定类数据,或称类别数据,如性别、材料类型和付款方式,非黑即白;(2)定序数值,数据有几个离散值,1,2,3,这些值大小是有意义的,但是大小差距是没有意义;(3)定距数据,从非正太分布的数据重抽取的区间数据,也就是连续性变量。

比较常用的比较两组独立样本之间的非参数检验有:

(1)检验两个相关样本(两组抽样)分布没有差异(来自同一个总体)

注意检验的样本之间有相关关系或者

A. Wilcoxon Signed Ranks检验

以秩检验为主,检验差异的方向和大小,比较全面,优先推荐这种检验。

B. Sign检验,检验正负差异次数

C. McNemar,侧重检验是否有差异

(2)检验k个相关样本(两组抽样)分布没有差异(来自同一个总体)

A.Friedman检验,秩检验,同时计算卡方,tie

B.Kendall检验,秩检验

C.Cochran的Q检验,只适用于二分变量,即k组样本都是0和1两种编码

(3)检验两组独立样本(两组抽样)是否来自同一个总体

推荐K-S(Kolmogorov Smirnov)检验

(4)检验k个独立样本是否来自统一整体

推荐Kruskal-WAllis检验

三 简而言之

如果你的两组或者多组变量是定距连续变量,那采用T检验就可以。

如果你变量不是定距变量,或者,定距变量明显不符合正态分布,才考虑使用非参数检验。



作者:Liping7
链接:https://www.jianshu.com/p/1a2480462f11
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。




https://blog.sciencenet.cn/blog-597968-1239307.html

上一篇:[转载]山东大学“太阳爆发及其对行星空间环境的影响”攀登团队 --- 空间天文物理融合研究中心2020年度优秀大学生夏令营招生
下一篇:[转载]做科研,要找到“自己”的问题
收藏 IP: 222.194.16.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 03:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部