|||
导言:前不久参加所里的本科毕设中期汇报会,期间一位学生提出:“一张XY二维图,如果我画在图上的是一条平行于X轴的横线,那说明Y值是不依赖于X的。不管X取什么值,Y都是这个值,怎么能说X和Y之间有关系呢?就算X轴取不同的参数,Y也是一样的值。只能说Y这个量自己的取值有规律,和X这个量一点关系都没有。” 当时略微做了一些评论,可能并没有阐述清楚,故在这里专门讨论一下这个问题。
摘要:相关系数可用来衡量两个观测量之间的线性相关程度。相关系数本身也是一个随机变量,有一定的分布特征。当数据点位于一条平行于X轴的横线上时,相关系数没有意义。但具有这种特征的数据分布本身或许蕴含着一些重要的物理规律。
在数据分析工作中,会碰到各种各样的观测量:电压、电流、气压、体积、亮度、质量等等。观测量自身往往有一定的分布规律,还混杂着随机测量误差,在数学上可以当做一个随机变量。获得观测(实验)数据后,便要对其进行分析,一个简单实用的方法是将对应两个观测量的一系列数据点画在二维平面上,看看其分布有什么规律。一些分布是确定且相当有规律,背后通常隐藏着深刻的物理原理,例如黑体辐射谱,对其进行分析直接导致了量子概念的产生。由于物理现象的复杂性,再加上随机的测量误差,导致更多的分布较为弥散,没有很强的确定性,但对其运用相关分析同样能得出一些重要的结论。例如,哈勃对星系的距离和红移(退行速度)进行分析,发现距离越远,红移越大,纵使误差很大,也还是能够明确得出宇宙在膨胀的结论(哈勃定律)。
我们普遍使用由Pearson引入的相关系数[1]来定量判断两个观测量(随机变量)之间的线性相关程度。相关系数的具体计算公式为,
$\rho_{X,Y}=\frac{E[(X-\mu_X)(Y-\mu_Y))]}{\sigma_X\sigma_Y}$ (公式1)
其中 $X$ 和 $Y$ 为两个不同的观测量, $\mu_X,\mu_Y$ 是它们的平均值, $\sigma_X,\sigma_Y$ 为各自的方差, $\rho_{X,Y}$ 为两个观测量之间的相关系数。
图1:数据点的分布形状和对应的相关系数。
(图片来源 http://en.wikipedia.org/wiki/Correlation_and_dependence 。)
相关系数的一些特性可以从图1所列的示例看出来。第一排图形体现了数据点分布的弥散程度和相关系数大小的关系。数据的弥散度越小,线性度越高,相关系数的绝对值就越大;反之,数据的弥散度越大,相关系数就越接近于0。第二排图形表明完全线性的数据分布对应的相关系数的绝对值为1,与斜率无关。但是当数据点平行于X轴时,其相关系数是没有意义的(下面我们还会展开讨论。)。第三排图形说明即使数据点对应的相关系数为0,也不能说两个观测量之间没有关系,因为相关系数仅仅反映两个观测量之间的线性相关程度,而在现实世界中观测量之间更有可能是一种非线性关系。
利用公式1不难验证,对变量 $X$ 或 $Y$ 作线性变换,相关系数的大小维持不变。同样一批数据,选择不同的显示比例尺,会有不同的视觉效果。例如Y方向的比例尺大,数据在这个方向就会被压缩,看起来相对集中些;选择小的比例尺,数据就被扩散开来,给人感觉数据似乎更加弥散,更加不相关了。实际上,不管选用什么样的比例尺,数据背后的相关系数没有发生变化。因此,我们在寻找数据的相关性时,不能过分依赖自己的直觉,还是要通过计算相关系数来判断。
相关系数本身也是一个随机变量。我们假定有两个相互独立的观测量。理论上,这两个观测量对应的相关系数的期望值为0。然而对于实际测量据来说,由于数据量有限,相关系数在区间[-1,1]之间有一个分布。蒙卡模拟表明这些分布近似为高斯型函数。数据量越大,分布函数越倾向于向0集中(见图2)。当数据量比较小时(例如样本量 $N=5$ ),即使是高的相关系数(例如0.8)也不见得观测量之间存在很强的相关性;而数据量比较大时(例如样本量 $N=1000$ ),很小的相关系数(例如0.2)也可能说明观测量之间存在着显著的相关性。严谨的做法是用假设检验来定量判断相关的显著性。
图2:相关系数的分布。两个互相独立的随机变量都满足泊松分布( $\lambda=10$ )。在不同样
本量(N=10/100/1000)条件下,通过10万次蒙卡模拟,获得对应的相关系数分布图。
最后我们试着来回答那位学生的提问。当数据聚集于一条平行X轴的横线时(类似图1正中央示例的情形),变量 $Y$ 的标准差为0,此时计算相关系数已经没有意义。由于测量误差的存在,实测数据不会严格分布在一条直线上,而是在该直线上下波动,因而相关系数会接近于0。但在该情形下,我们能说变量 $X$ 和 $Y$ 没有关系没有吗?不见得!
我们用理想气体的物理特性来说明。理想气体的状态方程为:
$PV = c MT$ (公式2)
其中 $P$ 为压强, $V$ 为体积, $M$ 为质量, $T$ 为温度, $c$ 为一个常数。若固定质量和温度,那么气体的压强和体积成反比。此时,我们去画压强(X轴)和温度(Y轴)数据的散点图,就会发现其分布近似平行X轴,压强和温度似乎毫无关系。让我们改变实验条件,将质量和体积限定在某一个固定值,再去画压强和温度的散点图时,将会发现他们之间存在明显的线性关系。
当出现数据分布平行于X轴(或Y轴)的情况时,我们首先要想一想:在实验中是不是由于设置的原因(在天文观测中对应的是仪器的选择效应),使得某个观测量被限定在一个特别小的区间内?正如上面所提到的理想气体实验。若不是,那么恭喜你,你的这批观测数据或许具有重要的科学价值!因为这样的现象意味着该观测量存在一个特殊状态:例如,当温度下降到某一水平时,一些物体可以进入超导状态,电阻恒定为0,并且不再随温度的继续下降而变化;天文中,当白矮星吸积质量达到钱德拉塞卡极限时,可以引发Ia型超新星爆发,这个质量也是一个恒定的量。这些特殊状态背后的物理原理值得去深究!
参考文献:
[1] http://en.wikipedia.org/wiki/Correlation_and_dependence
[2] 谢明文,《关于协方差、相关系数与相关性的关系》,数理统计与管理,23卷第3期,2004年5月
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 11:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社