从IPO分析未来的搜索引擎
已有 4784 次阅读
2008-10-24 12:27
|个人分类:信息检索|
搜索引擎, 发展趋势, IPO, 信息抽取, 知识获取
从IPO分析未来的搜索引擎
化柏林
(中国科学技术信息研究所,北京 100038)
(发表于《情报学报》2006年增刊)
摘 要 本文主要从搜索引擎的爬行范围、对网页内容的分析处理以及用户查询接口三个方面分析了搜索引擎的最新进展,并根据技术发展的规律以及人机交互的需求对搜索引擎的信息采集、信息分析、信息提供三大处理过程和支撑资源的建设等方面的发展作了相应的分析与从预测。
图1. 搜索引擎发展趋势图
一.信源Input
二代搜索引擎的URL是直接从html文件中析取出来的,是字符级匹配的过程。
三代搜索引擎能够爬行以数据记录为内容的网页。
四代搜索引擎在爬行过程中还多了一个自动注册机。
五代搜索引擎能够对私有数据进行搜索,当然异构数据的查询也早就实现了。******************************************************
二.分析处理Process
二代搜索引擎主要利用分词技术,词根词干分析技术,词语同现及频率分布。
三代搜索引擎不再停留在词的层面,深入到句法层面,对句子的结构、句子成分及词汇短语在句子中的功能进行分析;对于图形图像涉及到颜色、纹理、形状的分析;对于音频涉及基音、音强、音色,对于视频涉及到帧结构、镜头运动方式与切换方式等[5]。
四代搜索引擎将深入语义层面,深入理解句子的意思,理解图像的含义、音频视频的内容,这时对于不同媒体格式的数据可以达到统一。
五代搜索引擎将穿越语义,在充分理解各种语义的基础上,能够分析文献的写作手法、修辞方式,能够推敲语言的妙用。
三.信宿Output
二代搜索引擎输入的是文本,输出的是文本、图像、音频、视频。
三代搜索引擎可以实现出入口同媒体,通过输入自然语言的句子来进行文本的搜索,而对于图形,可以输入示例图形,也可以草图查询。
四代搜索引擎可以实现输入与输出是不同的媒体,如果没有相应的媒体数据,可以由系统生成。
五代搜索引擎不仅可以生成相应的音频和视频,还能够准确地配以空间属性,以地理属性的可以进行全球定位。
********************************
从IPO分析未来的搜索引擎
https://blog.sciencenet.cn/blog-91591-43855.html
上一篇:
Google搜索引擎技术实现探究下一篇:
从检索技术的实现看三大全文数据库的发展