|||
导读
大数据环境下 Web 新闻网页内容抽取是一个开放性研究问题,最近一项研究可快速有效地解决该问题。论文 “基于块密度加权标签路径特征的Web新闻在线抽取” 报道了这一研究成果,该文由合肥工业大学吴共庆副教授担任第一作者/通讯作者、胡学钢教授担任通讯作者撰写,即将在《中国科学:信息科学》 2017 年第 8 期中出版,敬请关注!
Web 新闻是一种重要的互联网大数据源,Web 新闻内容抽取是众多 “大数据” 和 “大知识” 应用的基础技术。做为大数据重要载体之一的 Web,具有开放性、动态性、异构性等特点,并且 Web 新闻出版缺少统一的出版标准,导致 Web 新闻内容抽取任务成为一个开放性研究问题。
最近一项研究综合标签路径特征和文本块密度特征的优点设计了一种高性能的在线 Web 新闻内容抽取模型和方法。该项研究成果引入扩展标记有序树表示模型,设计了适用于综合利用标签路径特征和文本块密度特征的 Web 内容抽取模型和算法框架,基于块密度加权标签路径特征,设计了在线 Web 新闻内容抽取算法,并验证了该算法可高效准确地抽取海量、异构、多语言的 Web 新闻网页内容。
在实时在线类Web内容抽取方法中,抽取特征设计是研究的重点。目前,标签路径特征和文本块密度特征是实时在线类抽取方法中两类性能优良的特征。然而,标签路径类特征存在设计上的不足,该类特征难以区分内容块中的噪声和噪声块中的内容,难以抽取内容块中低特征值内容,且易将噪声块中的高特征值噪声误判为内容。基于文本密度块特征的抽取方法难以恰到好处地获得区分文本块和噪声块的阈值,易将整块内容误判为噪声或整块噪声误判为内容,导致该类特征在实际应用中存在鲁棒性不足的问题。另外,这两类特征及其相应的抽取方法存在着较大的差异,难以直接融合,由此带来的问题是:能否综合标签路径特征和文本块密度特征的优点设计一种性能更好的抽取特征及抽取方法?
针对该问题,该项研究做了一些有益的探索工作:引入扩展标记有序树表示模型,根据每个文本节点均是某个文本块解析子树的叶节点的特性;设计了适用于综合利用标签路径特征和文本块密度特征的 Web 内容抽取模型和算法框架 CEDP;设计了一种有效的文本密度特征,在此基础上,设计了块密度加权标签路径特征,以获得具有更强区分能力的综合特征;基于块密度加权标签路径特征, 设计了在线 Web 新闻内容抽取算法 CEDP-NLTD。
实验结果表示,融合两类特征的方法在各种 Web 内容抽取数据上的表现都非常稳定,体现了融合方法的优势,并且在效率上也具有较强的竞争力。
作者开源了 CEDP 系统,并共享了实验数据集,以期对学术界和产业界提供参考并产生较好的影响。
下载网址:https://github.com/hfut-dmic/CEDP
更多详情请阅原文
基于块密度加权标签路径特征的Web 新闻在线抽取
吴共庆, 刘鹏程, 胡骏, 等.
中国科学: 信息科学, 2017, 47(8), doi: 10.1360/N112016-00305
http://engine.scichina.com/publisher/scp/journal/SSI/doi/10.1360/N112016-00305?slug=abstract
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 15:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社