xi123的个人博客分享 http://blog.sciencenet.cn/u/xi123

博文

自动文摘(二)

已有 2533 次阅读 2018-3-9 14:44 |个人分类:自然语言处理|系统分类:科研笔记

Evaluation

人工评价:

自动评价:

最广泛使用的是ROUGH系统(Recall-Oriented Understudy for Gisting Evaluation

基本思想:待审摘要参考摘要n元组共现统计量作为评价依据,然后通过一系列标准进行打分。

标注语料: TACText Analysis Conference)和TRECText Retrieval Conference)两个会议提供了相关的评测数据集,自动文摘领域的paper都是以这些数据集为baseline,与其他paper的算法进行对比。新的领域中做自动文摘需要建立自己的数据集作为标准。

现有的评价标准存在的一个重要问题在于没有考虑语义层面上的相似,评价extractive还好,但评价abstractive就会效果不好了。

ROUGE评价指标

1ROUGE-N:这个指标计算生成的摘要与相应的参考摘要的n-gram召回率。

2ROUGE-L:这个指标匹配两个文本单元之间的最长公共序列(LCSLongest Common Subsequence)。

3ROUGE-W:这个指标计算加权的LCS

4ROUGE-S:计算跳二元组(skip-bigram)同现统计量。


参考:

[1]https://www.cnblogs.com/Determined22/p/6650373.html

[2]http://rsarxiv.github.io/tags/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98/




https://blog.sciencenet.cn/blog-3360373-1103042.html

上一篇:自动文摘(一)
下一篇:自动文摘(三)
收藏 IP: 218.30.113.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 06:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部