xi123的个人博客分享 http://blog.sciencenet.cn/u/xi123

博文

机器学习笔试总结一

已有 464 次阅读 2018-3-27 19:13 |个人分类:机器学习|系统分类:科研笔记

 1、机器学习分类评估指标

    准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;
    召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;
    为了解决准确率和召回率冲突问题,引入了F1分数

2、kmeans算法

    主要分为赋值阶段和更新阶段。算法步骤:

    (1)随机选择K个点作为初始的质心;

    (2)将每个点指配到最近的质心;

    (3)重新计算簇的质心,直到质心不再发生变化;

    K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。


3、CRF与HMM、MEMM的区别

    CRF  的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优

          CRF  的缺点:速度慢


 4、关联规则

置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数

支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数

      

 5、生成式模型和判别式模型

       常见的判别式模型有:  

                Logistic regression  

                Linear discriminant analysis  

                Supportvector machines  

                Boosting  

                Conditional random fields  

                Linear regression  

                Neural networks 

      常见的生成式模型有:      

                  Gaussian mixture model and other types of  mixture model      

                  Hidden Markov model      

                  Naive Bayes      

                  AODE      

                  Latent Dirichlet allocation      

                  Restricted Boltzmann Machine  


6、SPSS中,数据整理的功能主要集中在:数据和转换  


7、线性分类器的最优准则

    线性分类器三种最优准则: 

    Fisher      准则    :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵  Sw  和类间离散矩阵  Sb  实现。

    感知准则函数  :准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。 

    支持向量机  :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。


参考:http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/







http://blog.sciencenet.cn/blog-3360373-1105968.html

上一篇:凝聚子群相关研究

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-7-16 03:21

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部