天上人间分享 http://blog.sciencenet.cn/u/terahertz 淡泊明志,宁静致远 liuguifeng29@163.com

博文

基于机器学习的专利文本分类算法研究综述

已有 4782 次阅读 2016-9-5 16:48 |个人分类:发表论文|系统分类:人文社科| 专利, 综述, 机器学习, 分类, 文本

(本文发表于《图书情报研究》2016年第3期P79-86)

摘要: 总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的一般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、构建分类器及效果评价等过程。将应用于专利文本分类的机器学习算法分为单一分类算法和组合分类算法着重探讨:单一分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法,SVM-其它算法,还有多种组合算法。指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望。

关键词: 专利文本;自动分类;机器学习;朴素贝叶斯;支持向量机





https://blog.sciencenet.cn/blog-39723-1001054.html

上一篇:南京科技馆
下一篇:北京理工大学
收藏 IP: 221.6.159.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-29 16:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部