科学网—xi123的博文

设为首页收藏本站

开启辅助访问切换到宽版

科学网 › 我的中心 › 博文 › xi123的博文

xi123

https://blog.sciencenet.cn/?3360373

python学习| 社会网络学习| 数据结构| 强化学习| django学习| linux| 个人| github开源项目| sklearn学习| git学习| 自然语言处理| 机器学习| 数理统计|

机器学习之降维: 郗强 2018-3-14 09:30; 1、PCA 在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。假如我们的数据集是n维的，共有m个数据(x(1),x(2),...,x(m))。希望将这m个数据的维度从n维降到n'维，希望这m个n'维的数据集尽可能的代表原始数据集。 ...; 个人分类: 自然语言处理|2582 次阅读|没有评论

机器学习之特征选择: 郗强 2018-3-13 22:24; 文本中能观察到的两个量：词频和文档频率，所有方法以这两个量为基础。 1、TFIDF TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。 ...; 个人分类: 自然语言处理|2502 次阅读|没有评论

自动文摘（三）: 郗强 2018-3-9 14:48; Abstractive summarization研究进展 abstractive 是学术界研究的热点，大部分工作试着套用 Machine Translation 中的 encoder-decoder 框架和 attention mechanism ，将 abstractive 问题转换为 sequence-2-sequence 问题，得到 state-of-the-art 结果。 En ...; 个人分类: 自然语言处理|2505 次阅读|没有评论

自动文摘（二）: 郗强 2018-3-9 14:44; Evaluation 人工评价：自动评价 : 最广泛使用的是 ROUGH 系统（ Recall-Oriented Understudy for Gisting Evaluation ）基本思想 : 将待审摘要和参考摘要的 n 元组共现统计量作为评价依据，然后通过一系列标准进行打分。标注语料 : TAC （ Text Analysis Conference ）和 TREC （ Text Retrieval Co ...; 个人分类: 自然语言处理|2506 次阅读|没有评论

自动文摘（一）: 郗强 2018-3-9 14:42; 两类自动文摘方法 Extractive: 抽取式的方法基于一个假设，一篇文档的核心思想可以用文档中的某一句或几句话来概括。那么摘要的任务就变成了找到文档中最重要的几句话，也就是一个排序问题。基于图排序 : 将文档的每句话作为节点，句子之间的相似度作为边权值构建图模型，用 pagerank 算法进行求解，得到每个 ...; 个人分类: 自然语言处理|2324 次阅读|没有评论

starspace使用: 郗强 2018-3-9 14:07; StarSpace是一个对于各种实体进行表示学习的工具（StarSpace is a general-purpose neural model for efficient learning of entity embeddings for solving a wide variety of problems）主要可以解决的问题包括：（1）Learning word, sentence or documen ...; 个人分类: 自然语言处理|2569 次阅读|没有评论

fasttext使用: 郗强 2018-3-9 13:50; fasttext是由facebook开发的一个开源工具，应用广泛。该工具主要有两大用途：word representation learning and text classification. 安装：pip install fasttext 支持2.6及其以上版本，需要Cython build the C++ extension. ...; 个人分类: 自然语言处理|7878 次阅读|没有评论

会议

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 01:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部