||
为了对数据做回归,首先要看数据属于哪一类型,然后根据这类数据找到对应的分布函数。例如计数类数据符合泊松分布,连续性函数的数据符合高斯分布,离散数据符合伯努利分布等等。当找到这个分布函数后,我们就可以将它变形为广义线性模型(GLM),即概率,通过这种方式找到回归(拟合)函数的数学表达式,一般 $\eta =\theta^{T}x$ 。接下来我们通过上面的概率构造出似然函数,即 $L(\theta)=\prod ^{m}_{i=1}p(y^{i}|x^{i};\theta)$ ,然后通过找似然函数的最大值来确定参数 $\theta$ 。于是我们就找到了这批数据的一个拟合。
下面以Logistic回归为例。
Logistic一般用在二值的数据中,因此使用的分布函数是伯努利分布: $p=\phi^{y}(1-\phi)^{1-y}$ .
于是 $p(y;\phi)=\phi^{y}(1-\phi)^{1-y}=e^{log(\frac{\phi}{1-\phi})y-log(1-\phi)}$ ,得到 $\eta =log(\frac{\phi}{1-\phi})$ ,解得 $\phi=\frac{1}{1+e^{-\eta}}$ (注意这里有个负号)。这便是我们的拟合函数——Logistic函数,其中 $\eta =\theta^{T}x$ 。
接下来列出似然函数如下: $L(\theta)=\prod ^{m}_{i=1}p(y^i|x^i;\theta)=\prod ^{m}_{i=1}\phi^{y^i}(x^i;\theta)(1-\phi(x^i;\theta))^{1-y^i}$ ,取对数对 $\theta^i$ 求导后,由于 $\phi'=\phi(1-\phi)$ 将分母项消去了,故我们得到了梯度下降法中的梯度函数: $\frac{\partial l}{\partial \theta^i} = \sum ^{m}_{i=1}(y^i-\phi)x^i$ 。接下来便正好可以使用梯度下降法来求解出参数 $\theta^i$ 。
于是我们使用Logistic回归拟合了数据。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-19 06:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社