||
最大信息系数 (Maximal Information Coefficient, MIC)详解(1)
四年前看过的一篇论文,当时还在组会上报告过,很确信当时把它弄懂了,由于当时是用机器学习的方法来做预测,一直没有用到它,很多都忘了,只记得Science上有这么一篇文章,里面讲了个最大信息系数,能度量各种关系,看起来很NB的样子。现在分析高通量测序数据,能用到它了,没办法又浪费了至少20个小时重看了一遍,弄懂后记下来,便于交流和以后自己查看。
那篇NB paper:
David N. Reshef, et al. (2011). Detecting Novel Associations in Large Data Sets. Science, 334(6062), 1518-1524.
http://www.sciencemag.org/content/334/6062/1518.full
这篇论文的一作去年还来过学校做过报告,可惜忘了去了!
下面会尽量解释清楚这篇论文的正文和补充材料里的所有内容。
1. 背景
首先回顾一下为了完全看懂这篇论文的正文和补充材料需要了解的相关背景知识,主要是统计学和信息论中的基本概念。
假设有两个变量X和Y,抽样得到了n对样本值(各有n个观测值):
样本均值和标准差:
皮尔逊(积矩)相关系数(Pearson product-moment correlation coefficient):
也就是通常说的(线性)相关系数,一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示线性无关,-1 表示完全负相关。绝对值越大表示线性关系越强,但它不能度量线性关系的斜率以及非线性关系,当然也不能度量非函数关系。
斯皮尔曼(秩次,等级)相关系数(Spearman's rank correlation coefficient):
把X中的n个数从小到大排列,若Xi排在了第Ai个位置,则Xi的秩次为Ai,从而可得X所对应的秩次向量A,同理可得Y的所对应的秩次向量B:
A和B之间的皮尔逊相关数就是X与Y之间的斯皮尔曼相关系数:
斯皮尔曼秩相关数可以在一定程度上反应出非线性关系,若Y是X的严格单调递减(增)函数,则斯皮尔曼秩相关数是-1 (+1).
可决系数(coefficient of determination):
设Yi 是观测值,fi 是线性回归对应的预测值( fi(X1, X2, ......, Xn) ),则,
R2是拟合优度(Goodness of Fit)的一个统计量, 是指回归直线对观测值的拟合程度。R2越接近1,说明回归直线对观测值的拟合程度越好(在总变差中,由模型作出了解释的部分占的比重越大);反之,R2越接近0,说明回归直线对观测值的拟合程度越差(在总变差中,由模型作出了解释的部分占的比重越小)。
自信息量(self-information, information content, Quantities of information, amount of information):
假设X和Y中都只有s个不同的值,即都只有s个基本事件,从而可以根据样本来求出这s个基本事件的频率,用来当作概率。
这里以2为低,单位是bit;若以10为低,单位是Hartley;若以e为低,单位是nat。 信息量只表示随机性的减少程度,xi发生的概率越小, 当xi真的发生以后,提供的信息量就越大。 从而有:
从而,必然事件发生以后,信息量为0. 不可能事件发生以后,信息量为无穷大。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-4 00:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社