科学网

 找回密码
  注册
机器学习之降维
郗强 2018-3-14 09:30
1、PCA 在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x(1),x(2),...,x(m))。希望将这m个数据的维度从n维降到n'维,希望这m个n'维的数据集尽可能的代表原始数据集。 ...
个人分类: 自然语言处理|2582 次阅读|没有评论
机器学习之特征选择
郗强 2018-3-13 22:24
文本中能观察到的两个量:词频和文档频率,所有方法以这两个量为基础。 1、TFIDF TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。 ...
个人分类: 自然语言处理|2502 次阅读|没有评论
自动文摘(三)
郗强 2018-3-9 14:48
Abstractive summarization研究进展 abstractive 是学术界研究的热点,大部分工作试着套用 Machine Translation 中的 encoder-decoder 框架 和 attention mechanism ,将 abstractive 问题转换为 sequence-2-sequence 问题,得到 state-of-the-art 结果。 En ...
个人分类: 自然语言处理|2505 次阅读|没有评论
自动文摘(二)
郗强 2018-3-9 14:44
Evaluation 人工评价: 自动评价 : 最广泛使用的是 ROUGH 系统( Recall-Oriented Understudy for Gisting Evaluation ) 基本思想 : 将 待审摘要 和 参考摘要 的 n 元组 共现统计量 作为评价依据,然后通过一系列标准进行打分。 标注语料 : TAC ( Text Analysis Conference )和 TREC ( Text Retrieval Co ...
个人分类: 自然语言处理|2506 次阅读|没有评论
自动文摘(一)
郗强 2018-3-9 14:42
两类自动文摘方法 Extractive: 抽取式的方法基于一个假设,一篇文档的核心思想可以用文档中的某一句或几句话来概括。那么摘要的任务就变成了找到文档中最重要的几句话,也就是一个 排序问题 。 基于图排序 : 将文档的每句话作为节点,句子之间的相似度作为边权值构建图模型,用 pagerank 算法进行求解,得到每个 ...
个人分类: 自然语言处理|2324 次阅读|没有评论
starspace使用
郗强 2018-3-9 14:07
StarSpace是一个对于各种实体进行表示学习的工具(StarSpace is a general-purpose neural model for efficient learning of entity embeddings for solving a wide variety of problems) 主要可以解决的问题包括: (1)Learning word, sentence or documen ...
个人分类: 自然语言处理|2569 次阅读|没有评论
fasttext使用
郗强 2018-3-9 13:50
fasttext是由facebook开发的一个开源工具,应用广泛。 该工具主要有两大用途:word representation learning and text classification. 安装:pip install fasttext 支持2.6及其以上版本,需要Cython build the C++ extension. ...
个人分类: 自然语言处理|7878 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 01:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部