博文

知识抽取中的停用词处理技术

已有 4566 次阅读 2008-10-24 13:13 |个人分类:知识抽取| 自然语言处理, 知识抽取, 停用词, 中文分词, 文本信息分析

知识抽取中的停用词处理技术

化柏林

(中国科学技术信息研究所，北京 100038)

（发表于《现代图书情报技术》2007年第8期）

【摘要】 在知识抽取的分词过程中，需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表，识别过程中需要判断假停用词以降低噪声。实验表明，对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。

知识抽取中的停用词处理技术

转载本文请联系原作者获取授权，同时请注明本文来自化柏林科学网博客。
链接地址：https://blog.sciencenet.cn/blog-91591-43867.html

上一篇：从检索技术的实现看三大全文数据库的发展
下一篇：知识抽取中的嵌套向量分词技术

收藏 IP: .*| 热度|

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

扫一扫，分享此博文