|||
基于主题相关性判定的信息提取方法
摘要:采用DOM规范将HTML表示成树结构,本文提出结点主题相关性的判定方法,依此方法判定出要抽取的主题内容,并删除无关内容。
主题相关性判定
判定流程如下:
局部相关性判定
局部相关性=结点所有子树中的非链接文字数(中文字符数)之和/结点所有子树中的链接数之和。当local(blocki)>L(其中L是局部相关度的阈值),称该块局部相关。公式如下:
上下文相关性判定
为了减少判定的复杂性,设定两个值minw和maxw,minw值规定分块结点的非链接中文字符总数的最小值,maxw是规定分块结点的非链接中文字符总数的标准值。若words(blocks)<minw,则该块是主题不相关的;若words(blocks)>maxw,words(blocks)则该块是主题相关的。
上下文相关性判定即判定该块的兄弟结点blocki-1和blocki+1的主题相关性。如果 blocki-1和 blocki+1不存在时,则按blocki的局部相关度来处理,即blocki局部相关则为主题相关,反之则不是。如果 blocki是子树中的第一个结点,则只须判定blocki+1是否为主题相关。若相关,则blocki是主题相关的,反之则不是。如果 blocki是子树中的最后一个结点,则只须判定blocki-1是否为主题相关。若相关,则blocki是主题相关的,反之则不是。其它情况则判定blocki-1和blocki+1是否为主题相关的,若二者都是,则blocki就是主题相关的。若二者即使有一个不是主题相关的,则blocki也是与主题无关的。
参考文献
[1] 许文,都云程,李渝勤,等.一种通用HTML网页主题信息提取方法[J].现代图书情报技术, 2007, 卷缺失(1):40-43.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社