||
1、机器学习分类评估指标
准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率; 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率; 为了解决准确率和召回率冲突问题,引入了F1分数
2、kmeans算法
主要分为赋值阶段和更新阶段。算法步骤:
(1)随机选择K个点作为初始的质心;
(2)将每个点指配到最近的质心;
(3)重新计算簇的质心,直到质心不再发生变化;
K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。
3、CRF与HMM、MEMM的区别
CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢
4、关联规则
置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数
支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数
5、生成式模型和判别式模型
常见的判别式模型有:
Logistic regression
Linear discriminant analysis
Supportvector machines
Boosting
Conditional random fields
Linear regression
Neural networks
常见的生成式模型有:
Gaussian mixture model and other types of mixture model
Hidden Markov model
Naive Bayes
AODE
Latent Dirichlet allocation
Restricted Boltzmann Machine
6、SPSS中,数据整理的功能主要集中在:数据和转换
7、线性分类器的最优准则
线性分类器三种最优准则:
Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
参考:http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-16 01:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社