||
三个问题引入:
(1)机器学习什么时候会成功?
(2)什么样的模型是好模型?
(3)什么样的特征是好特征?
解答:
(一)机器学习成功依靠
(1) 模式存在( Pattern exists)
① 什么是模式?(提炼稳定的规律性的内容,可以用于后续推测)
(2) 数据足够( Data enough)(数据是第一生产力)
大数据1.0时代:数据报表和数据呈现
大数据2.0时代:数据挖掘和预测(机器学习等)
(3) 无解析解( No analytical solution)
(二)机器学习好模型(不同数据需要不同类型模型)
(1)度量不确定性(参考《概率论与数理统计》)
概率的频率主义定义;概率的贝叶斯定义;事件与可能性空间;随机变量。
用概率分布或概率函数描述随机变量:
用抽样来理解分布(用10000遵循大数定律)(分别是高斯分布、Gamma分布、指数分布、均匀分布)
(2)多维空间概率分布
(3)条件概率
(4)概率模型下的监督学习
(5)升级版线性回归
(6)模型求解与似然函数
似然是谁的函数
(7)联合分布
(8)重新认知代价函数(cost function)或 损失函数(lost function)(以升级版线性回归为例)
代价函数是在似然原则的指导下产生的,告诉我们如何设计代价函数,它与数据的分布息息相关。
对于指数函数的计算简化技巧是取对数
(9)重新设计代价函数
(10)KNN代价函数背后的假设是什么?
(11)误差分析:什么模型是好模型?(泛化误差越小模型越好)
测量泛化误差
泛化误差(针对测试数据集)的来源
方差偏差分解
泛化误差公式详细推导:
因此,为了减小泛化误差,获得好模型,应该采取的策略应针对三方面:
① 减小方差:增加数据量,使模型方差减小;
② 减小偏差:主要增加模型复杂度:由线性模型->神经网络->深度学习(都是在调节模型的复杂度)
③ 减弱噪声:噪声告诉我们天下没有完美的模型,噪声是最好的模型的理论上限,所有模型都存在,不好解决,暂时没办法。
(12) 方差偏差平衡性问题
因此,根据目前可以采取的策略,针对偏差和方差,好模型要找到一个平衡点,如下图:
点滴分享,福泽你我!Add oil!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 13:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社