||
最广泛使用的是ROUGH系统(Recall-Oriented Understudy for Gisting Evaluation)
基本思想:将待审摘要和参考摘要的n元组共现统计量作为评价依据,然后通过一系列标准进行打分。
标注语料: TAC(Text Analysis Conference)和TREC(Text Retrieval Conference)两个会议提供了相关的评测数据集,自动文摘领域的paper都是以这些数据集为baseline,与其他paper的算法进行对比。新的领域中做自动文摘需要建立自己的数据集作为标准。
现有的评价标准存在的一个重要问题在于没有考虑语义层面上的相似,评价extractive还好,但评价abstractive就会效果不好了。
ROUGE评价指标
1、ROUGE-N:这个指标计算生成的摘要与相应的参考摘要的n-gram召回率。
2、ROUGE-L:这个指标匹配两个文本单元之间的最长公共序列(LCS,Longest Common Subsequence)。
3、ROUGE-W:这个指标计算加权的LCS。
4、ROUGE-S:计算跳二元组(skip-bigram)同现统计量。
参考:
[1]https://www.cnblogs.com/Determined22/p/6650373.html
[2]http://rsarxiv.github.io/tags/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-22 06:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社