统计学习:从给定的有限的用于学习的训练数据集出发,假设要学习的模型属于某个假设空间,用某评价准则选出最优模型,最优模型的选取由算法实现。利用最优模型对新数据进行预测或分析。
样本:输入,输出对称为样本或样本点
回归问题:输入变量与输出变量均是连续的预测问题
分类问题:输出变量是有限离散的预测问题
标记问题:输入变量输出变量均是变量序列的预测问题(隐马尔可夫,条件随机场)
损失函数:模型得到的预测值与真实值不一样,0-1损失,平方损失等等
风险函数(期望风险):损失函数在联合分布下的期望
经验风险:在训练数据集上的平均损失
结构风险:在经验风险的基础上加上表示模型复杂度的正则化项
过拟合:学习时选择的模型所包含的参数过多,使对已知数据预测得好,未知数据预测差
正则化:模型复杂度的单调递增函数,可以是模型参数向量的范数。比如回归问题中,损失函数是平方损失,正则化可以是向量参数的L2范数。
交叉验证
泛化能力:学习方法对未知数据的预测能力
https://blog.sciencenet.cn/blog-1515646-968145.html
上一篇:
C++基本概念下一篇:
树状数组