Just begin分享 http://blog.sciencenet.cn/u/Smile321 Just begin ,long long way ahead !

博文

中英文文本预处理软件、工具和算法

已有 8485 次阅读 2010-9-7 21:00 |个人分类:tools|系统分类:科研笔记| 自然语言处理, 分词, 词性标注

1.中文分词、词性标注

中科院:ictclas
具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。
 
哈工大信息检索实验室:LTP 语言技术平台
在分词词性标注命名实体语义消歧方面效果都不错
stanford parser

2.英文词性标注  

Stanford Log-linear Part-Of-Speech Tagger 
http://nlp.stanford.edu/software/tagger.shtml

POS tagger(词性标注工具)
Jesus Gimenez, Lluis Marquez开发的使用SVM进行英文词性标注的工具,有C++、Perl语言的软件包。

CLAWS POS tagger (只能在线试用)
http://ucrel.lancs.ac.uk/claws/trial.html
 
PosTagger 
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/ 

工具:BrillWin
该工具可以用来对英文语料进行词性标注,不过标注后的语料好像标点符号和NNP及NN有点问题,可以手工修改,问题不大。
使用方法说明:
语料格式:一篇文章。
可以正常的对英语进行词性标注,执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
注意以上的各个参数的顺序不能调换。
 
工具:geniatagger
该工具除了词性标注和获取因为词的原型外,好像还可以进行命名实体识别,具体没试过,不过既然可以词性标注,那么提取命名实体,其实也不难了。而且这个针对于生物语料效果不错。同时其原型提取效果也不错。
 使用方法:
在geniatagger所在的文件夹下,直接命令行执行:  .geniatagger.exe <输入文件路径> 输出文件路径
注意:一定要有< >尖括号。
语料格式:Prepare a text file containing one sentence per line
Porter Stemming Algorithm
提供多种语言版本的源码

【tokenizationStemming、 lemmatization】



http://blog.sciencenet.cn/blog-441873-360584.html

上一篇:2010 summer school——人类语言技术HLT学习心得
下一篇:SEO——搜索引擎优化

3 章成志 曾新林 彭继东

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-30 17:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部