|||
在使用indri创建大数据集索引时,可能会出现一些异常问题:在不明情况下索引程序崩溃,整体索引时间过长等。在这些情况下,可以使用Indri将数据集分成多个子数据集分别创建索引,以便灵活控制。
有两种方法使用这些子索引,一是将这些子索引加入到index参数文件中:
<parameters> <index>E:indexgenomic_subajepidem</index> <index>E:indextext</index> <index>E:indextest2</index> <index>E:indexx</index> <count>10</count> <query>case</query> <trecFormat>false</trecFormat> <stemmer><name>krovertz</name></stemmer> </parameters> |
二是使用dumpindex命令来合并这些子索引成为一个单独的索引:
dumpindex d:/index/all m d:/index/sub1 d:/index/sub2 |
参考:http://sourceforge.net/p/lemur/discussion/546029/thread/7578ab7d/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 11:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社