NJU1healer的个人博客分享 http://blog.sciencenet.cn/u/NJU1healer

博文

机器学习背后的数学(上)

已有 2483 次阅读 2020-4-29 19:23 |个人分类:机器学习|系统分类:科研笔记

三个问题引入:

(1)机器学习什么时候会成功?

(2)什么样的模型是好模型?

(3)什么样的特征是好特征?

解答:

(一)机器学习成功依靠

(1) 模式存在( Pattern exists)

       ① 什么是模式?(提炼稳定的规律性的内容,可以用于后续推测)

      image.png

image.png

(2) 数据足够( Data enough)(数据是第一生产力)

     大数据1.0时代:数据报表和数据呈现

     大数据2.0时代:数据挖掘和预测(机器学习等)

image.png


(3) 无解析解( No analytical solution)


(二)机器学习好模型(不同数据需要不同类型模型)

(1)度量不确定性(参考《概率论与数理统计》)

        概率的频率主义定义;概率的贝叶斯定义;事件与可能性空间;随机变量。

        用概率分布概率函数描述随机变量:

image.png

       用抽样来理解分布(用10000遵循大数定律)(分别是高斯分布、Gamma分布、指数分布、均匀分布)

image.png

(2)多维空间概率分布

image.png

image.png

(3)条件概率

image.pngimage.png


(4)概率模型下的监督学习

image.png

(5)升级版线性回归

image.png


image.png

(6)模型求解与似然函数

image.pngimage.png

image.png

似然是谁的函数

image.png

(7)联合分布

image.png


(8)重新认知代价函数(cost function)或 损失函数(lost function)(以升级版线性回归为例

       代价函数是在似然原则的指导下产生的,告诉我们如何设计代价函数,它与数据的分布息息相关

image.png

image.png

       对于指数函数的计算简化技巧是取对数

image.png

(9)重新设计代价函数

image.png

(10)KNN代价函数背后的假设是什么?

image.png

(11)误差分析:什么模型是好模型?(泛化误差越小模型越好

        测量泛化误差

image.png



       泛化误差(针对测试数据集)的来源

image.png

image.png

       方差偏差分解

image.png

image.png


image.pngimage.pngimage.png


泛化误差公式详细推导:


image.png

image.png

       因此,为了减小泛化误差,获得好模型,应该采取的策略应针对三方面:  

       ① 减小方差:增加数据量,使模型方差减小;

       ② 减小偏差:主要增加模型复杂度:由线性模型->神经网络->深度学习(都是在调节模型的复杂度)

       ③ 减弱噪声:噪声告诉我们天下没有完美的模型,噪声是最好的模型的理论上限,所有模型都存在,不好解决,暂时没办法。

(12) 方差偏差平衡性问题

image.pngimage.png

image.png

          因此,根据目前可以采取的策略针对偏差和方差,好模型要找到一个平衡点,如下图

    image.png


点滴分享,福泽你我!Add oil!




https://blog.sciencenet.cn/blog-3428464-1230825.html

上一篇:KNN算法
下一篇:爬虫(一)
收藏 IP: 124.165.12.*| 热度|

1 崔锦华

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-5 13:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部