科学网

 找回密码
  注册
机器学习之朴素贝叶斯
郗强 2018-3-12 09:30
原理:对于给出的待分类项,求解在此项出现的条件下各个类别的概率,哪个最大就认为此项为哪个类别。 关键点:统计得到个类别下各个特征属性的条件概率。 重要假设:所有特征属性相互独立。 算法设计过程: 确定特征属性; 获取训练样本; 对每个类 ...
个人分类: 机器学习|1852 次阅读|没有评论
git使用
郗强 2018-3-9 16:19
一、在本地创建一个git库 mkdir filename cd filename git init #把这个目录变成Git可以管理的仓库 ls -ah ...
个人分类: git学习|1436 次阅读|没有评论
自动文摘(三)
郗强 2018-3-9 14:48
Abstractive summarization研究进展 abstractive 是学术界研究的热点,大部分工作试着套用 Machine Translation 中的 encoder-decoder 框架 和 attention mechanism ,将 abstractive 问题转换为 sequence-2-sequence 问题,得到 state-of-the-art 结果。 En ...
个人分类: 自然语言处理|2500 次阅读|没有评论
自动文摘(二)
郗强 2018-3-9 14:44
Evaluation 人工评价: 自动评价 : 最广泛使用的是 ROUGH 系统( Recall-Oriented Understudy for Gisting Evaluation ) 基本思想 : 将 待审摘要 和 参考摘要 的 n 元组 共现统计量 作为评价依据,然后通过一系列标准进行打分。 标注语料 : TAC ( Text Analysis Conference )和 TREC ( Text Retrieval Co ...
个人分类: 自然语言处理|2495 次阅读|没有评论
自动文摘(一)
郗强 2018-3-9 14:42
两类自动文摘方法 Extractive: 抽取式的方法基于一个假设,一篇文档的核心思想可以用文档中的某一句或几句话来概括。那么摘要的任务就变成了找到文档中最重要的几句话,也就是一个 排序问题 。 基于图排序 : 将文档的每句话作为节点,句子之间的相似度作为边权值构建图模型,用 pagerank 算法进行求解,得到每个 ...
个人分类: 自然语言处理|2314 次阅读|没有评论
starspace使用
郗强 2018-3-9 14:07
StarSpace是一个对于各种实体进行表示学习的工具(StarSpace is a general-purpose neural model for efficient learning of entity embeddings for solving a wide variety of problems) 主要可以解决的问题包括: (1)Learning word, sentence or documen ...
个人分类: 自然语言处理|2563 次阅读|没有评论
fasttext使用
郗强 2018-3-9 13:50
fasttext是由facebook开发的一个开源工具,应用广泛。 该工具主要有两大用途:word representation learning and text classification. 安装:pip install fasttext 支持2.6及其以上版本,需要Cython build the C++ extension. ...
个人分类: 自然语言处理|7872 次阅读|没有评论

本页有 3 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 04:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部