博文

Google搜索引擎技术实现探究

已有 4646 次阅读 2008-10-24 12:25 |个人分类:信息检索| 搜索引擎, 技术实现

Google搜索引擎技术实现探究

化柏林[1]

(中国科学技术信息研究所北京 100038)

（发表于《现代图书情报技术》2004年年刊）

【摘要】 本文从技术的角度剖析了Google搜索引擎的体系结构与工作过程，详细介绍了基于Robot的网页搜索、标引入库和检索引擎三大模块，统计了Google的技术数据，并分析了Google的技术实现特点，解释了Google检索的种种现象。

**************************************************

系统总框：

Google搜索引擎从功能上分为三大部分：网页爬行、标引入库和响应查询。

**************************************************

模块一：网页爬行

网页爬行模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成，另外还要借助标引器的一个辅助功能。

**************************************************

模块二：标引入库

标引入库模块由分类器和标引器组成。标引入库模块处理大量的文件和数据，用来构建庞大的数据库，主要涉及数据资源库、词典库、链接库、桶等。桶的结构与内容非常复杂，有关桶的操作是本模块的核心。

**************************************************

模块三：响应查询

响应查询模块主要由网页级别评定器和查询器组成。查询器运行在Web服务器上，并用DumpLexicon产生的词典、倒排档索引和PageRanks一起来响应查询。网页级别评定器借用了图书文献里的参考文献与引用文献的评价思想，利用链接网页的数量及重要性进行等级评定，而链接网页的重要性由它的链接网页的数量及重要性决定，因此是一种迭代计算。

**************************************************

Google搜索引擎技术实现探究

转载本文请联系原作者获取授权，同时请注明本文来自化柏林科学网博客。
链接地址：https://blog.sciencenet.cn/blog-91591-43854.html

上一篇：文献计量分析研究的分类与处理流程
下一篇：从IPO分析未来的搜索引擎

收藏 IP: .*| 热度|

当前推荐数：0

发表评论评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

化柏林

扫一扫，分享此博文

化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

Google搜索引擎技术实现探究

当前推荐数：0

发表评论评论 (1 个评论)

化柏林

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

Google搜索引擎技术实现探究

当前推荐数：0

发表评论 评论 (1 个评论)

化柏林

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

发表评论评论 (1 个评论)