|||
基于URL-DOM的网页去噪方法
URL 相似性定义
在一个 URL中,每两个“/”间的内容称为一小段URL。如果满足以下条件:1)第一小段的URL 相同;2)“/”的数量相同;3)URL 的后缀名相同或没有后缀名;4)除第一小段外,其余每个对应小段URL 的内容相似,则称其 URL结构相同,即这两个URL是相似的。
DOM树匹配
首先判断两棵树的根节点是否相同,如果不同就返回0;否则顺序比较两棵树的叶子节点,记录并删除相同节点(名字和属性都相同),并返回相同节点的数目。删除相同节点是为了在递归计算中,防止该节点再次进行计算。用相似度计算公式来计算两颗简单DOM树之间的相似度:
其中表示树Ta与Tb的相似度;表SimpleTreeMatch(Ta,Tb)示树Ta与Tb 的相同节点的个数; |Ta|与|Tb|分别表示Ta与Tb的节点数。
网页类型判断框架
网页统计模型
主题型网页一般拥有大量的文字,链接型网页拥有大量的链接,图片型网页的图片较多或者较大,文字较少。可见这三类网页在文本数量、链接数量、图片信息量(数量和大小的结合)上是有差异的。
图片的信息量通过下式计算:
其中,width和height分别为<img> 标签中的width属性值与height 属性值,γ是被预先定义的一个常数(本文取γ=1000),用来达成图片尺寸与字节大小的联合。即200×200大小的图片相当于40 字节。
文本信息量通过下式计算:
其中,文本字节数定义为B(text),字体大小定义为fs(text),文本大小未被明确指定时,其默认大小为12。
净化后的链接文本长度和净化后的body节点信息量的比值:
类型判定:当P>=a时,判定为链接型网页;当P<a且I1>I2时,判定为图片型网页;当P<a且I1<I2时,判定为主题型网页。
实验分析
1)数据集. 实验用的HUB 型网页的基准网页是从国内大型导航类网站 2345、好123、114 啦、搜狗、265、360、369、0056、9991等网站上下载的 6145 个各不相同的网页,且均以“/”结尾的URL 作为链接型基准网页。主题型网页和图片型网页的基准网页是从新浪网、网易163、腾讯网三大门户网站上下载的网页。共收集了42306 个各不相同的网页。
2)衡量方法. P值分布。P在 [0,1] 范围内,本文将此范围平均分成100 等分进行统计。横坐标为 0~100 的整数,代表 0%~100%,纵坐标为对应网页数量的百分比。如下图所示:
参考文献
[1] 薛丽敏,薛虹军.一种新型的网页去噪及网页类型判断方法_薛丽敏[J].信息网络安全, 2013, 卷缺失(6):30-34.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社