|||
几个Extractor算法
本文的主要贡献在于提出了四个算法ContentExtractor,FeatureExtracotr,K-FeatureExtracotr,L-Extractor,这些算法用于切分HTML页面获取相应的页面块。
GetBlockSet(获取页面的块)
输入:页面H,有序标签集T
输出:页面H的块集
ContentExtractor
输入:页面集S,有序标签集T
输出:页面集S的主要内容块
Sim(比较两个块的相似性)
输入:页面集H,有序标签集T,期望特征F1
输出:H的内容块
K-FeatureExtractor(基于FeatureExtractor的改进算法)
参考文献
[1] Anon.Automatic Identificationof Informativesections of Web Pages[J].Ieee Transactions on Knowledge and Data Engineering,2005,17(9):1233-1246.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社