气宇轩分享 http://blog.sciencenet.cn/u/yufree

博文

最小二乘法?为神马不是差的绝对值 精选

已有 49128 次阅读 2012-10-12 23:12 |个人分类:科搜研手册|系统分类:科研笔记| 东西, 实用主义, 斯坦福, 公开课

最近搞了点机器学习的东西,因为0基础所以老老实实上了斯坦福的公开课,这期间解决了我一直想不清楚的一个问题:最小二乘法的统计学解释。

当我们遇到一个原理的时候,实用主义者会认为可以应用就可以了,但总有些吃饱了没事干的人去问个为什么,他们连显而易见的常识都不放过,更别说想最小二乘法这种看起来并不那么理所当然的东西。对方法的本质进行探索是很重要的,这直接关系方法的泛化与推演程度。而本质又是什么?想来有两种:公理与统计学规律。前者的代表就是几何学,基本是个纯演绎体系,后者的代表就是一切说不明白但又很显然的道理,而为了让这个显然更精准和科学一些,我们需要一些统计学的知识,算是个归纳体系。逻辑上演绎而不是归纳体系更符合科学的严谨性,这也是证伪的核心,但这不是说统计得到的规律意义不大,相反,当今多数研究的科学性更多是由统计学意义而不是反例来支配的,就连黎曼猜想这种大手笔的数学证明过程也不乏统计方法的应用。但说到底本质的东西就是无法再从这里往前推的知识或原因,我们周知的世界就是由这些东西根本支配。但这里没有说所有的事物都能找到一个说的清楚的原因,强加因果是很荒谬的,现在很多事件过度强调找原因事实上很幼稚,原因不都是一下就说得清的。好了,不废话了,回到那个最直接的问题

数据拟合中,为什么要让模型的预测数据与实际数据之差的平方而不是绝对值和最小来优化模型参数?

首先,我们来考虑数据拟合的实际状况:当我们寻找模型来拟合数据时,偏差是不可避免的存在的。对一个拟合良好的模型而言,这个偏差整体应该是符合正态分布的,这里可能你会问为什么是正态分布?其实这就是个假设,你用什么分布就要在后续的计算中运用相应分布的概率密度函数,而偏差这种东西符合什么分布最靠谱呢?如果你喜欢扔硬币的话就知道硬币一面出现的概率就是0.5,你扔多次某一面出现的次数的概率就是个二项分布,这是离散的,你扔硬币的次数趋向正无穷再来看这个分布就是正态分布。这之间的证明过程涉及斯特林公式神马的,其实这个推导是在一定条件下完成的,想了解的自行放狗。如果你认同这种0.5概率的扔硬币,那么可以假想理想的偏差也是跟硬币某一面出现的概率分布差不多就行了,至于再深入考虑为什么,那就基本是形而上学的东西了,自便。

现在,我们已经知道偏差符合正态分布,那么下一步就是理解另外一种函数——极大似然函数。在模型拟合中,极大似然函数的本质就是让我们用来拟合数据的模型与每一个数据点的更为相符,这就要求偏差的大小应该是基本一致,或者说符合正态分布,那么偏差大小基本一致与不一致怎么区别呢?这里我们用偏差出现的概率相乘的大小来表示。因为概率大小都在0到1之间并符合期望为x的正态分布,两个偏差值越接近中心期望x,乘积越大。极大似然函数就是用来表示这一关系的,当然在这里联乘的形式可以取对数改为概率求和,如果你还有印象的话,正态分布的概率密度函数是欧拉数的幂函数形式,而幂中有一个负号有一个平方,平方就是偏差的平方,负号则将原来求最大值变成了求最小值,这时候反过来看这个极大似然函数的求解其实就是最小二乘法。

本质上来说,模型拟合都可以用极大似然函数求最值来表示,如果你能想办法把你想键的模型转为一个寻优问题,那就可以通过求导等数学方法来解决了,但千万要注意:并不是所有的模型都可以有最优解,有些只有局部最优,有些则压根找不到,需要足够聪明的人转为对偶的凸函数或其他可解的问题才能寻优,此外,数学上证明了的NP-hard问题就别尝试了,更不要尝试NPC问题了。

好了,现在我大概说明白了为什么用平方和了,本质上就是正态分布的概率密度函数所致,那么为什么不是绝对值的和呢?简单说绝对值的和无法转化为一个可解的寻优问题,既然无法寻优如何得到恰当的参数估计呢?就这么简单。

关于最小二乘,刘未鹏在讲解贝叶斯定律(http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/)时也提到过,他从贝叶斯定律而不是极大似然的角度给出了与本文基本一致的解释,可谓殊途同归:

学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是:给定平面上 N 个点,(这里不妨假设我们想用一条直线来拟合这些点——回归可以看作是拟合的特例,即允许误差的拟合),找出一条最佳描述了这些点的直线。

一个接踵而来的问题就是,我们如何定义最佳?我们设每个点的坐标为 (Xi, Yi) 。如果直线为 y = f(x) 。那么 (Xi, Yi) 跟直线对这个点的“预测”:(Xi, f(Xi)) 就相差了一个 ΔYi = |Yi – f(Xi)| 。最小二乘就是说寻找直线使得 (ΔY1)^2 + (ΔY2)^2 + .. (即误差的平方和)最小,至于为什么是误差的平方和而不是误差的绝对值和,统计学上也没有什么好的解释。然而贝叶斯方法却能对此提供一个完美的解释。

我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测,所有纵坐标偏离 f(Xi) 的那些数据点都含有噪音,是噪音使得它们偏离了完美的一条直线,一个合理的假设就是偏离路线越远的概率越小,具体小多少,可以用一个正态分布曲线来模拟,这个分布曲线以直线对 Xi 给出的预测 f(Xi) 为中心,实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于 EXP[-(ΔYi)^2]。(EXP(..) 代表以常数 e 为底的多少次方)。

现在我们回到问题的贝叶斯方面,我们要想最大化的后验概率是:

P(h|D) ∝ P(h) * P(D|h)

又见贝叶斯!这里 h 就是指一条特定的直线,D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(D|h) 最大。很显然,P(h) 这个先验概率是均匀的,因为哪条直线也不比另一条更优越。所以我们只需要看 P(D|h) 这一项,这一项是指这条直线生成这些数据点的概率,刚才说过了,生成数据点 (Xi, Yi) 的概率为 EXP[-(ΔYi)^2] 乘以一个常数。而 P(D|h) = P(d1|h) * P(d2|h) * .. 即假设各个数据点是独立生成的,所以可以把每个概率乘起来。于是生成 N 个数据点的概率为 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化这个概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。 熟悉这个式子吗?

OK,到此结束,概率论就是个坑啊!




https://blog.sciencenet.cn/blog-430956-621997.html

上一篇:闽浙万里行
下一篇:相似相溶 why?
收藏 IP: 210.72.152.*| 热度|

17 田灿荣 于春水 王磊 陈小斌 张学文 白图格吉扎布 路新华 刘和平 徐绍辉 韦玉程 朱艳芳 袁贤讯 钟云飞 朱新亮 覃伟 李天成 xchen

该博文允许注册用户评论 请点击登录 评论 (25 个评论)

IP: 195.26.60.*   | 赞 +1 [18]w802kx   2015-7-12 19:13
好文,一开始没看懂,仔细看了《正态分布的前世今生(上)》才懂了一点点。有个问题想请教,用最小二乘法曲线拟合出来的曲线,与目标曲线在不同横坐标点对应的纵坐标的误差之间是什么关系?或者拟合曲线哪个区域误差大哪个区域误差小?
回复  这个问题文中应该没有提到。线性回归拟合曲线的预测效能方面是以x,y均值为中心,越极端误差越大。这是可以证明的,但直观上也可理解为回归分析的本质就是向均值回归。
2015-7-14 13:461 楼(回复楼主) 赞 +1 |
IP: 109.171.137.*   | 赞 +1 [17]ycyzyp   2012-10-15 01:01
璇寸殑灏变笉鏄庣櫧
IP: 66.11.167.*   | 赞 +1 [16]袁贤讯   2012-10-14 19:04
王春艳:一个点的距离用平方没问题,但问题是平方的和说明什么?我什么非要用这样的办法来定义“平均距离”啊?
IP: 218.57.175.*   | 赞 +1 [15]王春艳   2012-10-14 16:56
欢迎指出我的问题。我只是觉得最小二乘法太容易明白了。
回复  17l袁老师说得很明白了 不是因为最小二乘法显而易见就无需解释 而是只有直观解释而没有数学或统计上的解释会让我这种死脑筋觉得太不可思议了
2012-10-14 19:361 楼(回复楼主) 赞 +1 |
回复  先问:这里说的最小二乘,与居士说的LS有关吗?
刚才因LS问题,与蒋扯上。LS,关系到居士博客的咽喉。可否/有 提议,干脆用“投影方程”代替老旧的求导或术语正则/规方程。x为LS问题Ax~b的解, 当且仅当x满足“投影方程”:
Ax 等于= b在A的像空间的正交投影?
因在像空间,故有解;LS的很多研究,在于其解的唯一性、数字稳定性、筛选取舍?居士系列博文,默认最小范数(能量)解?
2018-9-13 10:532 楼(回复楼主) 赞 +1 |
IP: 218.57.175.*   | 赞 +1 [14]王春艳   2012-10-14 16:52
因为求距离,当然应该用平方了。因为最小二乘法在我脑子里就是理所当然的,根本不用整那么多名词来解释。越解释越乱!
IP: 218.57.175.*   | 赞 +1 [13]王春艳   2012-10-14 16:37
方差最小难道不就是距离最小吗?
IP: 218.57.175.*   | 赞 +1 [12]王春艳   2012-10-14 16:35
平方和绝对值的目的都是为了将测量值和真实值之间的差值的正负关系去掉,从而得出测量值和真实值的距离差。目的是一样的。
回复  对 目的一样 问题在于用函数表示后的求解 并且这个函数可以返回一组拟合的参数或是寻优结果 最小二乘可以返回一个可解析为全局最优的解 绝对值在某些条件下也可以 但算法要比凸函数复杂 这篇文章就是给最小二乘法找个说得过去的来源 不然为什么不用绝对值呢?
2012-10-14 16:481 楼(回复楼主) 赞 +1 |
IP: 218.57.175.*   | 赞 +1 [11]王春艳   2012-10-14 16:03
我本来很明白最小二乘法是怎么回事,让你这么一解释,反倒糊涂了。
至于这么复杂吗。最小二乘法不就是方差最小吗?
回复  用方差理解很直观 但无法反映最小二乘法所揭示的模型与数据间距离最小的本质 如楼上诸位所言 绝对值方法也可以用 这时候方差就不能直观解释了 毕竟拟合问题有多种解法 都用方差来理解可能行不通
2012-10-14 16:271 楼(回复楼主) 赞 +1 |
IP: 219.140.204.*   | 赞 +1 [10]徐义贤   2012-10-13 23:48
如果题目改为“最小二乘法与最大似然法的等价性”或者其他,读者可能更易接受。采用L1的最优化是理论家们当前研究的热点之一。
IP: 66.11.167.*   | 赞 +1 [9]袁贤讯   2012-10-13 20:46
[1]楼陈老师说的关键词,“代价函数”您似乎没有领会哈。[3]楼是经典数学家的思考,而不是统计学家的思维方式。

楼主说到贝叶斯,其实还是没有仔细体会到正态分布与误差平方和之间的一生二、二生一的关系。如果用拉普拉斯分布做核来考虑贝叶斯,是否也可以从贝叶斯的角度推导出用绝对值做范呢?
回复  我是因为研究中要用到SVM才涉及这一领域(本行是环境分析化学),前后学了大概一个月,属于班门弄斧,所以很多东西都还是一知半解,代价函数我的理解就是用来解决问题的函数,这个函数应该是可寻优的,当然最小二乘与最小绝对值和都符合这个概念,但在求解优化参数这方面最小二乘法可能更容易理解的。
至于说贝叶斯,那段是刘未鹏写的,可能没把引用标注清楚,这文章主要就是想说明误差平方和与正态分布的关系及极大似然法的思想,我也确实看过正态分布的证明来搞清楚那个平方的来源,只不过写博文懒的用公式编辑器而且有些推导糊里糊涂,所以就略过去了。
从贝叶斯角度用绝对值做范,理论上说得通,但能不能对参数求解可能就是另一回事了,可能我也太过于从求解上较真,事实上如2l 3l所言,搜索寻优等算法完全可以拿来用,就是担心局部最小值问题而已,好像现在也有压缩感知等方法考虑一些稀疏性等的约束让这些问题的全局最优可解,但那些离我太过遥远,坦言之完全外行。但不可否认,这类求解欠定问题的方法拥有更广阔的应用前景。
2012-10-13 23:191 楼(回复楼主) 赞 +1 |
IP: 110.249.133.*   | 赞 +1 [8]xiaobanI   2012-10-13 19:26
初中的时候思考过这个问题。当时考虑的是,对于两个点,如果用平方和,则得到的最优解是这两个点的中点。如果用绝对值的和(既距离的和)则在这两个点组成的线段上任何点都是最优解。
但是对于你和来说,误差最小的,看上去应该是中点。
IP: 166.111.153.*   | 赞 +1 [7]卢金龙   2012-10-13 18:30
哎....概率论就是个坑...够草率够武断..
IP: 114.243.240.*   | 赞 +1 [6]sirudao   2012-10-13 13:57
其实从目前关于最小二乘的讲解上就能看到统计学教育的缺陷。其实做统计或者数据分析很重要的一点就是要培养专业思想,直观思维,从实际问题中直接提炼新的方法。讲回归分析的时候,很多人很多书上只讲最小二乘,其实看着散点图,很直观的就能想到为什么不能用绝对值呢?为什么不能用直角边呢(点到拟合直线的真正距离)?但是很多书上很多老师都不提示或者不讲。其实大家都知道,用绝对值的话就是作中位数回归,得到了最小一乘估计,其稳健性比最小二乘要好,更稳健。只不过求解不容易要用到线性规划,不像最小二乘求个偏导就能出来,所以没发展起来。但是最小一乘的思想要让学生了解到,统计学不是数学,不是指搞数学意味下的最优什么的,而是解决实际问题。
IP: 124.117.86.*   | 赞 +1 [5]张学文   2012-10-13 12:32
最大似然体现了高概率的事件最容易出现这个最朴实的原理。
IP: 183.208.15.*   | 赞 +1 [4]itellin   2012-10-13 11:35
这个问题涉及到投影定理,如果用绝对值,不会产生最佳逼近。
IP: 114.62.1.*   | 赞 +1 [3]密铁宾   2012-10-13 11:32
博主的思考很好, 如二楼所说, 采用平方和有一些技术上的优势, 例如, 连续可导, 对应于某个范数, 有很多数学工具来分析.
现在的确L1也很流行, 但求解起来不太容易.
IP: 114.247.10.*   | 赞 +1 [2]陈小斌   2012-10-13 10:48
主要原因不是概率问题,而是目标函数的解析性。最小二乘连续可导,绝对值不可导,这是根本原因。搜索法寻优,不需要求导数的,L1范数也用得很多。
IP: 123.113.33.*   | 赞 +1 [1]陈学雷   2012-10-13 06:08
其实也有代价函数用绝对值而不用平方和的。
回复  确实如此,就最小二乘法而言,用平方本质上是为了寻优,如果绝对值也可以用来找到全局最优解的话当然更为简单,只要保证算法收敛就可以了,查了下还真有,孤陋寡闻了,感谢陈老师的提醒!
2012-10-13 09:581 楼(回复楼主) 赞 +1 |

1/1 | 总计:18 | 首页 | 上一页 | 下一页 | 末页 | 跳转

扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-3 14:47

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部