|||
来源网页:http://www.lemurproject.org/doxygen/lemur/html/QueryModelEval.html
该命令为QueryModelEval,加载一个扩展的查询语言模型(例如通过GenerateQueryModel 计算得到的查询语言模型),然后通过KL-divergence检索模型进行计算。从另一方面来看,通过该命令与GenerateQueryModel结合,该方法也能为Lemur自带的各种语言模型的执行检索并返回最终的结果。
参数说明:
(1)index:索引数据库的全名,包含索引内容文件列表;
(2)smoothSupportFile:平滑支持文件名,例如由GenerateSmoothSupport命令生成的文件;
(3)queryModel:待评价的query model文件
(4)resultFile:结果文件
(5)resultFormat:结果格式要么是TREC格式(6栏格式),要么是简单的3栏格式<queryID, docID, score>。可以是布尔值,false代表非TREC格式,true代表TREC格式。默认值为true,即TREC格式。
(6)resultCount:每个查询返回的结果集文档数。
以下参数为文档模型的平滑参数:
(7)smoothMethod:以下四个值之一:
o Jelinek-Mercer:jelinikmercer、jm或者0
o Dirichlet先验值:dirichletprior、dir或者1
o 绝对折合方式(Absolute discounting):absolutediscount、ad或者2
o 两阶段方式(two stage):twostage、2s或者3
(8)smoothStrategy(平滑策略):插值方式(值为interpolate 、0)或者退避法(值为backoff、1)
(9)adjustedScoreMethod(文档得分调节方法):指明输出哪种格式的分数,值为以下之一:
o query likelihood:"querylikelihood"、"ql"
o 交叉熵:"crossentropy"、"ce"
o 负KL距离:"negativekld"或"-d"
(10)JelinekMercerLambda:JM插值法中的文档集模型(Collection Model)权重,默认值为0.5
(11)DirichletPrior:Dirichlet先验平滑方法的先验参数值,默认为1000
(12)discountDelta:绝对折合方式中折合常量delta的值,默认为0.7
使用示例:
QueryModelEval E:IR_EXPqmeval.txt |
参数为: <parameters> <index>e:indexohsumed4</index> <queryModel>E:IR_EXPexp_qm_iid05q_1_qm.txt</queryModel> <resultFile>E:IR_EXPexp_rs_iid05q_1_rs.txt</resultFile> <resultFormat>0</resultFormat> <resultCount>500</resultCount> <smoothMethod>jelinikmercer</smoothMethod> <smoothStrategy>interpolate</smoothStrategy> <adjustedScoreMethod>querylikelihood</adjustedScoreMethod> <JelinekMercerLambda>0.6</JelinekMercerLambda> </parameters> |
结果为:
1 F:datasetOhsumedOhsumed8787097544.txt -5.21955 1 F:datasetOhsumedOhsumed8989201700.txt -5.2203 1 F:datasetOhsumedOhsumed8989182887.txt -5.2205 1 F:datasetOhsumedOhsumed9191229114.txt -5.22287 1 F:datasetOhsumedOhsumed9191310766.txt -5.22553 1 F:datasetOhsumedOhsumed8888103805.txt -5.22575 …… |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 09:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社