BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

聊聊论坛网页抽取

已有 7520 次阅读 2010-12-14 17:14 |个人分类:网页抽取|系统分类:科研笔记| 论坛, 信息抽取

    网页信息抽取是一切网页文本研究分析的前提工作。目前的传统信息抽取主要分为两种,一种是基于规则的抽取,规则可以人工定制,也可以通过学习得到,另一种就是利用机器学习方法进行分类。网页信息抽取可以采用传统的文本信息抽取技术进行,但是效果大打折扣。因为网页文本与传统文本的不同在于,网页文本是后台程序生成的,具有丰富的html标签来表示结构,所以网页文本属于半结构化文本,如何利用网页本身的结构特点进行信息抽取,是研究的突破点。本文主要论述作者在论坛网页抽取中研究工作。

   新闻网页的抽取目前已经比较成熟,目前本文采用的是基于行文本密度的算法(哈工大一哥们提出的,感觉效果比那些论文中写的高深莫测的机器学习方法要好,而且实现简单,速度快),这里之所以提及,是因为这个方法会作为论坛信息提取的补充,下面就开始本文的正题了。

   论坛网页的信息抽取可以根据抽取粒度的不同分为两个层次:(1)网页净化,只净化掉和网页主要内容无关的广告、导航等冗余信息。剩下的信息以方便用户浏览为目标,这里主要保存楼主帖子内容和回复帖内容。(2)网页信息抽取:在网页净化的基础上,对于内容进一步抽取,提取出发帖时间,发帖用户,帖子内容等元数据。本文的主要完成目标是进行网页净化,减少冗余信息,以提高检索精度和方便用户浏览存储。另外对元数据的抽取做了一些尝试和实验。

   论坛回帖抽取。新闻类网页的特点是正文表现为连续出现的高密度文本,而论坛类网页的特点是文本间隔出现。由于论坛的回帖都是由后台的程序读取数据库后以统一格式进行显示。所以论坛的回帖信息就表现为连续重复出现的相同样式的网页节点,因此如果能够提取出论坛网页中的重复出现相同样式的网页节点,就可以解决回帖的提取问题,详细算法以后再聊。

   解决了回帖提取后,下面就要提取楼主帖了。经过观察表明,大多数规范论坛的每个帖子都有标题,而这个标题写在了head头里的title标签之间。本文采用HtmlParser工具包可以很容易提取出,当然也可以直接采用

正则表达式提取。title中的标题和文中的标题区别在于,可能会通过一些分隔符在标题后面加入一些网站信息。根据观察可以通过去除分隔符后面的冗余内容获取到网页中的标题。还是通过观察发现,网页的楼主贴在标题和第一条回帖之间,并且具有连续大文本的特点,设置阈值区别,当然如果没有这个特点,这个楼主帖也没提取的价值,这个不是本文的重点。

   楼主帖和回帖提取后,下一个问题就是提取元数据。《基于网页布局相似度的Web论坛数据抽取》这篇论文提出了在提取回帖后,将回帖分割成语义块,然后相同位置的信息如果都出现某种格式,那么就可能是特定的信息。例如都是时间格式,那么可能就是回复时间。貌似原理很对,但是在实际操作过程中出现了很多问题。怎么样分割语义块,根据文中提出的方法,发现很难去分,因为虽然回帖的样式差不多,但是如果具体到细微处还是有很大区别的,通过位置信息找到相同语义块难度很大,当然我也不太清楚作者是怎么弄的。有的论文提出了基于本体的抽取,但是他们的本体都是表示路径,然后又要通过训练学习,太麻烦,而且效果估计不会太好,虽然作者的精确度很高,但是那都是用的自己的数据集。本文结合了传统文本信息抽取使用本体的方法,将它应用到元数据抽取中。具体实现方法以后详细聊。

   总体而言,目前论坛网页的信息抽取的关键问题不是算法问题,而是没有统一的测试集,这就导致很多论文使用自己的测试集进行测试得到很高的精度,但是别人获取不到数据集,不能和自己的算法进行比较。当然,现在讨论的是提取的是论坛的帖子网页。在实际的搜索引擎应用中,爬取的网页不可能都是帖子,需要采用机器学习的分类技术或者发现一些特定规则,排除非帖子网页。有的帖子存在多页的情况,所以在爬取的过程中,将属于同一主题的网页放在一起,将提取的回复帖拼在一起就是所要抽取的内容。好了,具体细节以后再聊!

 



https://blog.sciencenet.cn/blog-516696-393533.html


下一篇:论坛回帖提取问题的分析
收藏 IP: .*| 热度|

4 刘洋 许培扬 yinglu liuhh07

发表评论 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 12:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部