WHU Bruisefree分享 http://blog.sciencenet.cn/u/bruisefree Link together

博文

Indri的dumpdoc, dumpterm, and dumpindex命令

已有 6097 次阅读 2013-1-26 23:17 |个人分类:lemur Indri|系统分类:科研笔记| Lemur, indri

翻译自:http://sourceforge.net/p/lemur/wiki/dumpdoc,%20dumpterm,%20and%20dumpindex/
"dumpindex"工具一般可以使用户可以导出索引文件的内容、索引词项或者索引的常用统计。
注意:这些工具只在Indri索引上使用。

  • dumpindex
dumpindex 工具对于多种索引功能来说,多多少少有些像“瑞士军刀(Swiss-army knife)”。

通用语法是:
$ dumpindex <repository_path> <command> [<argument>]*

其中<repository_path>是索引文件路径,<command>是使用命令,<argument>是指命令的可用参数项。

      从索引库中检索数据的命令如下:
命令
参数
说明
term (t)
Term text
打印词项的倒排文档信息,格式:“序号 词频 文档”
termpositions (tp)
Term text
打印词项的倒排文档信息,带位置信息,格式:“序号 词频 文档 词在文档中的位置列表”
fieldpositions (fp)
Field name
打印字段的倒排文档信息,带位置信息
expressionlist (e)
Expression
打印Indri查询表达式的倒排文档信息,带位置信息
xcount (x)
Expression
打印Indri查询表达式的出现次数
documentid (di)
Field, Value
打印字段field的value值的文档ID
documentname (dn)
Document ID
打印给定文档的文本表示字符串,一般是一个被索引文档的路径名
documenttext (dt)
Document ID
打印给定文档的文本内容
documentdata (dd)
Document ID
打印文档的完整表示(full representation),包含metadata、positions、tags、text、content等几项
documentvector (dv)
Document ID
打印文档的文档向量,包括field和terms
invlist (il)
(None)
打印所有倒排文档内容
vocabulary (v)
(None)
打印索引的词汇信息,包括词、词频(tf)、文档频率(df)
stats (s)
(None)
打印索引库的统计信息,包括总文档数、总词频、唯一词数、字段。
使用实例:
dumpindex E:indexx dv 1  #文档1的文档向量
dumpindex E:indexx s #索引统计信息

dumpindex E:indexgenomic_subajepidem dd 1 #文档1的完整表示

 
       除了能够打印多种统计信息外,"dumpindex"命令还能够对索引实施下面的改变操作:
命令
参数
说明
compact (c)
(None)
压缩索引库,释放由被删除的文档占据的空间
delete (del)
Document ID
从索引库中删除指定文档
merge (m)
Input indexes (space separated)
合并多个Indri索引库为一个索引库
    尤其是合并索引操作,则可以用dumpindex的m命令来实现。
 


https://blog.sciencenet.cn/blog-563898-656829.html

上一篇:Indri的IndriBuildIndex索引命令
下一篇:Indri多索引文件创建、合并及使用
收藏 IP: 183.61.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-29 20:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部