随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

谁来救百度

已有 4131 次阅读 2008-10-12 22:45 |个人分类:NLP| 搜索引擎

一 百度VS谷歌
我百度用的不是很多,因为百度没有这样的功能:1 跨语言搜索和即时翻译 2 学术搜索 3google book有很多英文好书 4 google earth、mars、moon、sky可以看地球看星空
用百度,是因为google没有百度贴吧、知道、国学。
可是百度所长不是google所短,而google所长正是百度所短。因为贴吧、知道和国学是任何网站都可以做的工作,google一样可以搜索到。而百度在上述4个方面的短缺恰恰都是搜索本身的技术。
如果往未来看,我预测google会推出如下搜索:1 图片模糊匹配:用户提交一个图片,google返回相似的图片和网页; 2语音检索:提交一段文字或语音,自动返回相关语音或文字; 3 多语言即时搜索:提交任意一个语言的检索串,得到各语言、各国家的网页结果; 4还有一些就不说了,留着自己找工作时再说,呵呵
总之,就上面4个加上我说的3个,百度在搜索的对象(文字、图像、语音、宇宙地理)、语种、专业领域方面大大落后于google,且不说google在软件、硬件、商业界的多多动作。虽然百度也在不断发展多语种的搜索,但在搜索的基本技术方面依然存在瓶颈。
二 常见的误区
今天看到李一男跳槽,确实说明了百度发展的决心,不过个人以为百度更应加强与高校的合作,加强研发力度。品牌的树立也是很关键的因素,蛋糕做大,分食者也更快意。
下面说说几个常见误区:
1 聚类引擎能击败google。聚类算法本身不是特别复杂,没有实在的核心机密算法的话,google的天才们瞬间就可以实现并赶超,就像vivsimo挑战google,google干脆就推出了自己的子品牌搞聚类引擎。
2 个别语言的搜索还是本土引擎做的好。随着google全球战略和人才全球化本地化,这基本也不存在什么差别。
3 和google比拼索引的页面数量。google已经不再公布自己的索引量。为什么呢,不是因为google的搜索算法好,不要求过多页面,而是google实在保存了太多的页面,按照时间来保存;用户的搜索浏览记录也一一记下;我不知道他们的数据中心到底有多大的存储能力,但这个世界上应该没有哪个公司在文本的存储方面超过他们了。
三 如何与google大哥争口饭吃
我想啊想,办法还是有的,因为搜索还有太多的技术有待攻克。只要在以下某方面获得自主知识产权和核心技术,吃饭还是不成问题的:
语言分析理解技术;语言生成技术;图像识别搜索技术;语音识别搜索;跨语言翻译技术;超大规模数据分布处理技术等等。
我想,“搜索”一词本身才是最大的误区,做好搜索引擎的根本目的,或者说挣钱的根本点在于满足人们对于各种媒体、各种信息和知识的了解、搜索、把握、存储、管理等等处理的需要。在未来,“搜索”一词一定会被替代,人们将在脑力活动方面得到极大的拓展,google老大还得为我们做出许多perfect的艺术品来。

https://blog.sciencenet.cn/blog-39714-42422.html

上一篇:宗教板块——学术的净土和未来的生力军
下一篇:CFP:CICLing 2009 + Lexicom 2009
收藏 IP: .*| 热度|

2 曹聪 杨秀海

发表评论 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 19:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部