WHU Bruisefree分享 http://blog.sciencenet.cn/u/bruisefree Link together

博文

Indri多索引文件创建、合并及使用

已有 5103 次阅读 2013-1-28 20:22 |个人分类:lemur Indri|系统分类:科研笔记| 多索引

在使用indri创建大数据集索引时,可能会出现一些异常问题:在不明情况下索引程序崩溃,整体索引时间过长等。在这些情况下,可以使用Indri将数据集分成多个子数据集分别创建索引,以便灵活控制。

有两种方法使用这些子索引,一是将这些子索引加入到index参数文件中:

<parameters>

       <index>E:indexgenomic_subajepidem</index>

       <index>E:indextext</index>

       <index>E:indextest2</index>

       <index>E:indexx</index>

       <count>10</count>

       <query>case</query>

       <trecFormat>false</trecFormat>

       <stemmer><name>krovertz</name></stemmer>

</parameters>

二是使用dumpindex命令来合并这些子索引成为一个单独的索引:

dumpindex d:/index/all m d:/index/sub1 d:/index/sub2

参考:http://sourceforge.net/p/lemur/discussion/546029/thread/7578ab7d/



https://blog.sciencenet.cn/blog-563898-657388.html

上一篇:Indri的dumpdoc, dumpterm, and dumpindex命令
下一篇:中介中心性的快速计算方法
收藏 IP: 113.107.200.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-29 04:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部