科学网

 找回密码
  注册
机器学习笔试总结一
郗强 2018-3-27 19:13
1、机器学习分类评估指标 准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率; 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率; 为了解决准确率和召回率冲突问 ...
个人分类: 机器学习|1652 次阅读|没有评论
凝聚子群相关研究
郗强 2018-3-22 22:49
凝聚子群研究是一种社会结构研究。社会结构是在社会行动者之间实存或者潜在的关系模式。关系模式可以有多种,包括二人关系、三人关系、子群层次的关系等。结构分析者的一个重要关注点是分析出网络中存在的“子结构”,如n-派系、n-宗派、k-丛等。群体是在即定目标和规划的约束下,彼此互动 ...
个人分类: 社会网络学习|13095 次阅读|没有评论
中心性---权力的量化研究
郗强 2018-3-18 20:37
什么是权力?如何描述和分析权力?抽象的个人是没有权力的。一个人之所以拥有权力,是因为他与他者存在关系,可以控制、影响他人。或者说,一个人的权力就是他者的依赖性。网络分析者是从“关系”的角度出发定量地界定权力的,并且给出多种关于权力的具体的形式化定义,即各种中心性和中心势指数。其 ...
个人分类: 社会网络学习|6293 次阅读|没有评论
整体网结构分析简介
郗强 2018-3-18 17:20
一、相关概念 (1)属性数据与关系数据 “属性数据”指的是行动者自身拥有的性质,与之对应的变量称为“属性变量”; “关系数据”指的是与关系有关的数 ...
个人分类: 社会网络学习|3566 次阅读|没有评论
社会网络分析简介
郗强 2018-3-18 16:31
介绍社会网络分析基本概念及其特点,以及社会网络分析的内容与方法。 一、社会网络 社会网络指的是社会行动者及其间的关系的集合,是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。 (1)点(社会行动者):可以是任何社会单位和社会实体 ...
个人分类: 社会网络学习|9442 次阅读|没有评论
机器学习之降维
郗强 2018-3-14 09:30
1、PCA 在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x(1),x(2),...,x(m))。希望将这m个数据的维度从n维降到n'维,希望这m个n'维的数据集尽可能的代表原始数据集。 ...
个人分类: 自然语言处理|2520 次阅读|没有评论
机器学习之特征选择
郗强 2018-3-13 22:24
文本中能观察到的两个量:词频和文档频率,所有方法以这两个量为基础。 1、TFIDF TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。 ...
个人分类: 自然语言处理|2474 次阅读|没有评论
机器学习之决策树
郗强 2018-3-12 19:48
决策树学习的三个步骤:特征选择、决策树的生成和决策树的修剪。其本质上是从训练数据集中归纳出一组分类规则。决策树算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子集由一个最好的分类结果,这一过程对应着对特征空间的划分,也对应着决策树的构建。开始将所 ...
个人分类: 机器学习|2048 次阅读|没有评论
机器学习之SVM
郗强 2018-3-12 11:28
尝试找到一条直线,能够把二元数据隔离开。放到三维空间或者更高维的空间,尝试找到一个超平面,能够把所有的二元类别隔离开。这么多的可以分类的超平面,哪个是最好的呢?或者说哪个是泛化能力最强的呢? 感知机原理:让所有误分类的到超平面的距离最小。 SVM几个概念: 在分离超 ...
个人分类: 机器学习|2046 次阅读|没有评论
机器学习之logistic
郗强 2018-3-12 10:08
原理:二项logistic回归模型是由条件概率分布P(X|Y)表示,形式为参数化的logistic分布(实际上是一个sigmoid函数)。通过监督学习的方式来估计模型参数。然后比较两个条件概率的大小,将样本分到概率值较大的那一类。 logistic模型的特点:一个事件的几率是指该事件发生的概率与该事件不发生概率的比值,如果时间 ...
个人分类: 机器学习|1481 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 20:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部