xi123的个人博客分享 http://blog.sciencenet.cn/u/xi123

博文

自动文摘(一)

已有 2420 次阅读 2018-3-9 14:42 |个人分类:自然语言处理|系统分类:科研笔记

两类自动文摘方法

Extractive:

抽取式的方法基于一个假设,一篇文档的核心思想可以用文档中的某一句或几句话来概括。那么摘要的任务就变成了找到文档中最重要的几句话,也就是一个排序问题

基于图排序: 将文档的每句话作为节点,句子之间的相似度作为边权值构建图模型,用pagerank算法进行求解,得到每个句子的得分。代表算法有TextRankLexRank

基于特征: 句子长度,长度为某个长度的句子为最理想的长度,依照距离这个长度的远近来打分。句子位置,根据句子在全文中的位置,给出分数。(比如每段的第一句是核心句的比例大概是70%)。句子是否包含标题词,根据句子中包含标题词的多少来打分。句子关键词打分,文本进行预处理之后,按照词频统计出排名前10的关键词,通过比较句子中包含关键词的情况,以及关键词分布的情况来打分。代表算法是TextTeaser

一般的抽取式摘要问题,会考虑相关性新颖性两个指标。相关性是指摘要所用的句子最能够代表本文档的意思,而新颖性是指候选句子包含的冗余信息要少,尽可能每句话都可以独立地表达出一种独立的意思。

排序之后的结果只考虑了相关性并没有考虑新颖性,非常有可能出现排名靠前的几句话表达的都是相似的意思。所以需要引入一个惩罚因子,将新颖性考虑进去。对所有的句子重新打分,如下公式:

序号i表示排序后的顺序,从第二句开始,排第一的句子不需要重新计算,后面的句子必须被和前一句的相似度进行惩罚。这个算法就是所谓的MMRMaximum Margin Relevance

输出的结果一般是取排序后的前N句话,这里涉及到一个非常重要的问题,也是一直自动文摘质量被诟病的问题,可读性。因为各个句子都是从不同的段落中选择出来的,如果只是生硬地连起来生成摘要的话,很难保证句子之间的衔接和连贯。保证可读性是一件很难的事情。这里有一个取巧的方法,就是将排序之后的句子按照原文中的顺序输出,可以在一定程度下保证一点点连贯性。

Abstractive:

一个True AI的方法,要求系统理解文档所表达的意思,然后用可读性强的人类语言将其简练地总结出来。

理解文档。所谓理解,和人类阅读一篇文章一样,可以说明白文档的中心思想,涉及到的话题等等。

可读性强。可读性是指生成的摘要要能够连贯(Coherence)与衔接(Cohesion),通俗地讲就是人类读起来几乎感觉不出来是AI生成的(通过图灵测试)。

简练总结。在理解了文档意思的基础上,提炼出最核心的部分,用最短的话讲明白全文的意思。


参考:

[1]https://www.cnblogs.com/Determined22/p/6650373.html

[2]http://rsarxiv.github.io/tags/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98/


 



https://blog.sciencenet.cn/blog-3360373-1103041.html

上一篇:starspace使用
下一篇:自动文摘(二)
收藏 IP: 218.30.113.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-28 05:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部