Google搜索引擎技术实现探究
(中国科学技术信息研究所 北京 100038)
(发表于《现代图书情报技术》2004年年刊)
【摘要】 本文从技术的角度剖析了Google搜索引擎的体系结构与工作过程,详细介绍了基于Robot的网页搜索、标引入库和检索引擎三大模块,统计了Google的技术数据,并分析了Google的技术实现特点,解释了Google检索的种种现象。
**************************************************
系统总框:
Google搜索引擎从功能上分为三大部分:网页爬行、标引入库和响应查询。
**************************************************
模块一:网页爬行
网页爬行模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。
**************************************************
模块二:标引入库
标引入库模块由分类器和标引器组成。标引入库模块处理大量的文件和数据,用来构建庞大的数据库,主要涉及数据资源库、词典库、链接库、桶等。桶的结构与内容非常复杂,有关桶的操作是本模块的核心。
**************************************************
模块三:响应查询
响应查询模块主要由网页级别评定器和查询器组成。查询器运行在Web服务器上,并用DumpLexicon产生的词典、倒排档索引和PageRanks一起来响应查询。网页级别评定器借用了图书文献里的参考文献与引用文献的评价思想,利用链接网页的数量及重要性进行等级评定,而链接网页的重要性由它的链接网页的数量及重要性决定,因此是一种迭代计算。
**************************************************
Google搜索引擎技术实现探究
https://blog.sciencenet.cn/blog-91591-43854.html
上一篇:
文献计量分析研究的分类与处理流程下一篇:
从IPO分析未来的搜索引擎