WHU Bruisefree分享 http://blog.sciencenet.cn/u/bruisefree Link together

博文

Lemur查询语言模型评价命令

已有 4513 次阅读 2013-1-11 12:35 |个人分类:lemur Indri|系统分类:科研笔记| Model, 信息检索, query, Lemur

     即:Query Model Evaluation Application,翻译得有些拗口,请见谅。

来源网页:http://www.lemurproject.org/doxygen/lemur/html/QueryModelEval.html

该命令为QueryModelEval,加载一个扩展的查询语言模型(例如通过GenerateQueryModel 计算得到的查询语言模型),然后通过KL-divergence检索模型进行计算。从另一方面来看,通过该命令与GenerateQueryModel结合,该方法也能为Lemur自带的各种语言模型的执行检索并返回最终的结果。

参数说明:

1index:索引数据库的全名,包含索引内容文件列表;

2smoothSupportFile:平滑支持文件名,例如由GenerateSmoothSupport命令生成的文件;

3queryModel:待评价的query model文件

4resultFile:结果文件

5resultFormat:结果格式要么是TREC格式(6栏格式),要么是简单的3栏格式<queryID, docID, score>。可以是布尔值,false代表非TREC格式,true代表TREC格式。默认值为true,即TREC格式。

6resultCount:每个查询返回的结果集文档数。

以下参数为文档模型的平滑参数:

7smoothMethod:以下四个值之一:

o    Jelinek-Mercerjelinikmercerjm或者0

o    Dirichlet先验值:dirichletpriordir或者1

o    绝对折合方式(Absolute discounting):absolutediscountad或者2

o    两阶段方式(two stage):twostage2s或者3

8smoothStrategy(平滑策略):插值方式(值为interpolate 0)或者退避法(值为backoff1

9adjustedScoreMethod(文档得分调节方法):指明输出哪种格式的分数,值为以下之一:

o    query likelihood"querylikelihood""ql"

o    交叉熵:"crossentropy""ce"

o    KL距离:"negativekld""-d"

10JelinekMercerLambdaJM插值法中的文档集模型(Collection Model)权重,默认值为0.5

11DirichletPriorDirichlet先验平滑方法的先验参数值,默认为1000

12discountDelta:绝对折合方式中折合常量delta的值,默认为0.7

 

使用示例:

QueryModelEval E:IR_EXPqmeval.txt

参数为:

<parameters>

       <index>e:indexohsumed4</index>

       <queryModel>E:IR_EXPexp_qm_iid05q_1_qm.txt</queryModel>

       <resultFile>E:IR_EXPexp_rs_iid05q_1_rs.txt</resultFile>

       <resultFormat>0</resultFormat>

       <resultCount>500</resultCount>

       <smoothMethod>jelinikmercer</smoothMethod>

       <smoothStrategy>interpolate</smoothStrategy>

       <adjustedScoreMethod>querylikelihood</adjustedScoreMethod>

       <JelinekMercerLambda>0.6</JelinekMercerLambda>

</parameters>

结果为:

1 F:datasetOhsumedOhsumed8787097544.txt -5.21955

1 F:datasetOhsumedOhsumed8989201700.txt -5.2203

1 F:datasetOhsumedOhsumed8989182887.txt -5.2205

1 F:datasetOhsumedOhsumed9191229114.txt -5.22287

1 F:datasetOhsumedOhsumed9191310766.txt -5.22553

1 F:datasetOhsumedOhsumed8888103805.txt -5.22575

……



https://blog.sciencenet.cn/blog-563898-652012.html

上一篇:Lemur查询语言模型生成命令
下一篇:Indri检索评价命令
收藏 IP: 202.114.66.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 09:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部