|||
结合网页结构与文本特征的正文提取方法
摘要
通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。
网页处理
1. 将网页源代码下载后,先将其表示为字符串的形式;
2. 然后通过正则表达式将其中的与正文内容无关的代码(Script 脚本、NoScript 脚本、CSS 样式、注释、空白行)删除;
3. 经过预处理之后的代码以字符串webstr的形式表示;
4. 将字符串中的<div>、<table> 等容器标签用#text代替;
5. 通过#text将webstr分割成子串,将每个子串表示为块Block[i]。
正文提取步骤
1. 找出含有文本最多的文本块;
2. 从该文本块向前搜索找到第 1 个连续出现的链接块(即噪音区域);
3. 从最大文本块向后搜索找到第 1 个连续出现的链接块;
4. 将向前与向后搜索得到的链接块之间的内容取出作为当前网页的正文内容。
实验分析
1) 数据集. 本文从新浪、腾讯、搜狐、人民网等网站随机选择了3200个主题型网页作为实验数据。进行了2组实验:a.用了4种不同的方法来验证将文本密度与标点数目特征结合起来作文文本块特征的有效性以及加入“噪音”块连续出现特点后正文提取的效果;b.跟已有的3 种不同的方法进行比较,即跟基于阈值的方法(CETR-TM),基于 K-means 聚类方法(CETR- KM)以及改进的聚类方法(CETR) 进行比较。
2) 评价指标. 查全率(Recall)、查准率(Precision)及 F1 评价指标。
参考文献
[1] 熊忠阳,蔺显强,张玉芳,等.结合网页结构与文本特征的正文提取方法_熊忠阳[J].计算机工程, 2013, 卷缺失(12):200-203+210.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社