ibnsmm的个人博客分享 http://blog.sciencenet.cn/u/ibnsmm

博文

善用Google搜寻--从入门到精通

已有 40164 次阅读 2008-12-25 17:35 |个人分类:未分类|系统分类:人文社科| google

.google简介

 googlwww.google.com)是一个搜寻引擎,由某大学博士生larry pagesergey brin19989月发明,google inc. 1999年创立。20007月份,google替代inktomi成为yahoo公司的搜寻引擎,同年9月份,google成为中国网易公司的搜寻引擎。98年至今,google已经获得30多项业界大奖。

 

二,google特色

google支持多达132种语言,包括简体中文和繁体中文;

google网站只提供搜寻引擎功能,没有太多花俏的装饰;

google速度极快,据说有8000多台服务器,200多条t3级频宽;

google的专利网页级别技术pagerank能够提供高命中率的搜寻结果;

google的搜寻结果摘录查询网页的部分具体内容,而不仅仅是网站简介;

google智能型的“手气不错”功能,提供可能最符合要求的网站;

google的“网页快取”功能,能从google服务器里直接取出缓冲存放的网页。

 

三,基本搜寻:+-or

google无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。

示例:搜寻所有包含关键词“易筋经”和“吸星***”的中文网页

搜寻:“易筋经 吸星***

结果:已搜寻有关易筋经 吸星***的中文(简体)网页。共约有726项查询结果,这是第1-10项。搜寻用时0.13秒。

注意:文章中搜寻语法外面的引号仅起引用作用,不能带入搜寻栏内。

 

google用减号“-”表示逻辑“非”操作。

示例:搜寻所有包含“易筋经”而不含“吸星***”的中文网页

搜寻:“易筋经 -吸星***

结果:已搜寻有关易筋经 -吸星***的中文(简体)网页。共约有5,440项查询结果,这是第1-10项。搜寻用时0.13秒。

注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键词之间,不能有空格。比如“易筋经 - 吸星***”,搜寻引擎将视为逻辑“与”操作,中间的“-”被忽略。

 

google用大写的“or”表示逻辑“或”操作。但是,关键词为中文的或查询似乎还有bug,无法得到正确的查询结果。

示范:搜寻包含布兰妮“britney”或者披头士“beatles”、或者两者均有的中文网页。

搜寻:“britney or beatles

结果:已搜寻有关britney or beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜寻用时0.08秒。

搜寻:“布兰妮 or 披头士”

结果:找不到和您的查询-布兰妮 or 披头士-相符的网页。

注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。

 

+”和“-”的作用有的时候是相同的,都是为了缩小搜寻结果的范围,提高查询结果命中率。

例:查阅天龙八部具体是哪八部。

分析:如果光用“天龙八部”做关键词,搜寻结果有26,500项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的信息。可以用两个方法减少无关结果。如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键词,搜寻结果就只有995项,可以直接找到全部八部,“天龙八部 阿修罗”。 如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录,查询结果为1,010项,可以迅速找到需要的数据,“天龙八部 佛教 -金庸”。

 

四,辅助搜寻:通配符、大小写、句子、忽略字符以及强制搜寻

google不支持万用符号,如“*”、“?”等,只能做精确查询,关键词后面的“*”或者“?”会被忽略掉。

google忽略英文字符大小写,“god”和“god”搜寻的结果是一样的。

 

google的关键词可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键词,必须加英文引号。

范例:搜寻包含“long, long ago”字符串的网页。

搜寻:“"long, long ago"

结果:搜寻"long, long ago". 共约有28,300项查询结果,这是第1-10项。搜寻用时0.28秒。

注意:和搜寻英文关键词串不同的是,google对中文字符串的处理并不十分完善。比如,搜寻“"啊,我的太阳"”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊 我的 太阳”这样的与查询。显然,google对中文的支持尚有欠缺之处。

 

google对一些网络上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键词中包含这些常用词,就要用强制语法“+”。

示例:搜寻包含“who am i ?”的网页。如果用“"who am i ?"”,“who”、“i”、“?”会被省略掉,搜寻将只用“am”作关键词,所以应该用强制搜寻。

搜寻:“"+who +am +i"

结果:搜寻"+who +am +i". 共约有362,000项查询结果,这是第1-10项。搜寻用时0.30秒。

注意:英文符号(如问号,句号,逗号等)无法成为搜寻关键词,加强制也不行。

 

 

五,进阶搜寻:sitelinkinurlallinurlintitleallintitle

site”表示搜寻结果局限在某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

范例:搜寻中文教育科研网站(edu.cn)上所有包含“金庸”的页面。

搜寻:“金庸 site:edu.cn

结果:已搜寻有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10 。搜寻用时0.31秒。

 

范例:搜寻包含“金庸”和“古龙”的中文新浪网站网页,

搜寻:“金庸 古龙 site:sina.com.cn

结果:已在sina.com.cn搜寻有关金庸 古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜寻用时0.34秒。

 

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜寻的关键词。此外,网站域名不能有“http”以及“www”等,也不能有任何“/”的目录后显示;网站频道则只局限在“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。

 

link”语法返回所有链接到某个url地址的网页。

范例:搜寻所有含指向华军软件www.newhua.com”链接的网页。

搜寻:“link:www.newhua.com

结果:搜寻有链www.newhua.com的网页。共约有695项查...搜寻时用0.23秒。

注意:“link”不能与其它语法相混合操作,所以“link:”后面即使有空格,也将被google忽略。

 

inurl语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“mp3、“gallary”等,于是,就可以用inurl语法找到这些相关资源连结,然后,用第二个关键词确定是否有某项具体资料。inurl语法和基本搜寻语法的最大区别在于,前者通常能提供非常精确的专题数据。

 

范例:查找midi曲“沧海一声笑”。

搜寻:“inurl:midi 沧海一声笑”

结果:已搜寻有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜寻用时0.01秒。

 

范例:查找微软网站上关于windows2000的安全专题数据。

搜寻:“inurl:security windows2000 site:microsoft.com

结果:已在microsoft.com内搜寻有关 inurl:security windows2000的网页。共约有198项查询结果,这是第1-10项。搜寻用时0.37秒。

注意:“inurl:”后面不能有空格,google也不对url符号如“/”进行搜寻。google对“cgi-bin/phf”中的“/”当成空格处理。

 

allinurl语法返回的网页的连结中包含所有查询关键词。这个查询的对象只集中于网页的链接字符串。

 

范例:查找可能具有phf安全漏洞的公司网站。通常这些网站的cgi-bin目录中含有phf脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。

语法:“allinurl:"cgi-bin" phf +com

搜寻:搜寻allinurl:"cgi-bin" phf +com. 共约有40项查询结果,这是第1-10项。搜寻用时0.06秒。

allintitleintitle的用法类似于上面的allinurlinurl,只是后者对url进行查询,而前者对网页的标题栏进行查询。网页标题,就是html标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。

 

示例:查找日本明星藤原纪香的照片集。

搜寻:“intitle:藤原纪香 写真”

结果:已搜寻有关intitle:藤原纪香 写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜寻用时0.03秒。

 

google的少用进阶搜寻语法:relatedcacheinfo

 

related用来搜寻结构内容方面相似的网页。例:搜寻所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:www.sina.com.cn/index.shtml”。

 

cache用来搜寻google服务器上某页面的缓冲暂存,这个功能同“网页快取”,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜寻结果页面中的“网页快取”功能。

 

info用来显示与某链接相关的一系列搜寻,提供cachelinkrelated和完全包含该链接的网页的功能。

 

示例:查找和新浪首页相关的一些信息。

搜寻:“info:www.sina.com.cn

结果:www.sina.com.cn的网页信息。

新浪首页

北京站 上海站 广东站. ... 游戏世界, |, 影音娱乐, |, club, |,

人女人, |, 论坛聊天, |, 时尚潮流, |, 文教育儿, |, 车行天下, |,

软件下载. ...

google 提供这个网址的信息:

查看google网页快www.sina.com.cn的存档

www.sina.com.cn类似的网页

寻找网页有链www.sina.com.cn

寻找网页包含www.sina.com.cn'

 

六,其它重要功能

目录服务

如果不想搜寻网页,而是想寻找某些专题网站,可以浏览google的分类目录http://directory.google.com/ ;

 

工具bar

为了方便搜寻者,google提供了工具bar,集成于浏览器中,用户无需打开google主页就可以在工具条内输入关键词进行搜寻。此外,工具条还提供了其它许多功能,如显示页面pagerank等。最方便的一点在于用户可以快捷的在google主页、目录服务、新闻组搜寻、高级搜寻和搜寻设定之间切换。欲安装google的工具条,可以浏览http://toolbar.google.com/ ;

 

新闻组(usenet)搜寻

新闻组中有大量的有价值信息,deja一直是新闻组搜寻引擎中的佼佼者。20012月份,googledeja收购并提供了所有deja的功能。现在,除了搜寻之外,google还支持新闻组的web方式浏览和张贴功能。

 

输入“http://groups.google.com/”后,便进...我点按“advaced groups search”进入进阶搜寻界面http://groups.google.com/advanced_g...lt.chinese.text ;author:tuya@ccmail.uoregon.edu”。不过一般而言,我更推荐使用图形搜寻界面,方便而且直接观看。

 

搜寻结果翻译

曾经为那些你不懂的法文、西班牙文页面烦恼么?现在,google支持一项搜寻结果翻译功能,可以把非英文的搜寻结果翻译成英文!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是我不得不承认,这是个伟大的改进。

不过,目前只能在英文状态google下实现这个功能。进入google的设置页面,http://www.google.com/preferences,有一个“beta: enable translation of search results into your interface language. ”的选项,把它选中,就ok了。

 

搜寻结果过滤

网络上的成人内容浩如烟海,而且很多站点具有欺骗或者其它不良企图,浏览者很容易掉入其中的陷阱。为此,google新设立了成人内容过滤功能,见google的设置网页,http://www.google.com/preferences。不过,中文状态下的google尚没有这个功能。

 

pdf档案搜寻

我对google尤其欣赏的一点就是它提供对pdf档案内文的检索。目前google检索的pdf文档大约有2500万左右。这真是太美妙了。pdfadobe公司开发的电子文文件格式,现在已经成为互联网的电子化出版标准。pdf文档通常是一些图文并茂的综合性档案,提供的信息一般比较集中全面。

 

范例:搜寻关于电子商务(ecommerce)的pdf文檔。

搜寻:“inurldf ecommerce

结果:搜寻inurldf ecommerce. 共约有19,200项查询结果,这是第1-10项。搜寻用时0.11秒。

下面是某项搜寻结果:

[pdf] www.usi.net/pdf/outsoucing-ecommerce.pdf

outsourcing electronic commerce business case white paper by: john p. sahlin, product

marketing professonial (pmp) implementation manager, web engineering ...

一般文字文件 - 类似网页

 

可以看到,googlepdf檔前加上了[pdf]的标记,而且,googlepdf文件转换成了文字文件,点击“一般文字文件”,可以粗略的查看该pdf文檔的大致内容。当然,pdf原有的图片以及格式是没有了。

 

图像文文件搜寻

google提供了internet上图像文件的搜寻功能!!目前该功能尚在b测试阶段,但已经非常好用。访问地址是“images.google.com”。你可以在关键词字段内输入描述图像内容的关键词,如“britney spears”,也可以输入描述图像质量或者其它属性的关键词,如“high quality”。

 

google给出的搜寻结果具有一个直观的缩略图(thumbnail),以及对该缩略图的简单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,而下祯,则是该图像所处的页面。屏幕右上角有一个“remove frame”的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。google还提供了对成人内容图像的限制功能,可以让搜寻者免受不必要的骚扰。

不过,非常遗憾的是,图像搜寻功能还不支持中文。

 

 

七,搜寻技巧杂谈

关键词的选择在搜寻中起到决定性的作用,所有搜寻技巧中,关键词选择是最基本也是最有效的。

例一:查找《镜花缘》一书中淑士国酒保的酸话原文。

分析:如果按照一般的思路,找某部小说中的具体段落,就需要用搜寻引擎先找到这本书,然后再翻到该段落。这样做当然可以,但是效率很低。如果了解目标信息的构成,用一些目标信息所特有的字词,可以非常迅速的查到所需要的数据。也就是说,高效率的搜寻关键词不一定就是目标信息的主题。在上面的例子中,酒保谈到酒的浓淡与贵贱的关系时,之乎者也横飞。因此,可以用特定的词语一下子找到目标数据。

搜寻:“酒 之”,ok,找到的第一条信息就是镜花缘的这一段落:“先生听者:今以酒醋论之,酒价贱之,醋价贵之。因何贱之?为甚贵之?真所分之,在其味之。酒昧淡之,故而贱之;醋味厚之,所以贵之。...

 

以上的关键词选择技巧可以谓之“特定词法”。

 

例二:“黄花闺女”一词中“黄花”是什么意思。

分析:“黄花闺女”是一个约定的俗语,如果只用“黄花闺女 黄花”做关键词,搜寻结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜寻结果。选择什么关键词好呢?备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等,可以猜到的是,类似的数据,应该包含在一些民俗介绍性的文字里,所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些。

搜寻:“黄花闺女 黄花 由来”,查到“黄花”原来出典于《太平御览》,与南朝的寿阳公主相关。如果想获得第一手数据,那就可以用“太平御览 寿阳公主”做搜寻了。

以上的关键词选择技巧可以谓之“近义词法”。

 

例三:刘德华的胸围是多少。

分析:首先声明,这是某个mm要我做的搜寻,我把它作为搜寻案例而已,没其它的意思。非常直接的搜寻是,“刘德华 胸围”,但事实上,这么搜寻出来的结果,尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻,无法快速得到所需要的数据。可以想到的是,需要的资料应该包含在刘德华的全面介绍性文字中,除了胸围,应该还包括他的身高,体重,生日等一系列相关信息。ok,这样就可以进一步的增加其它约束性关键词以缩小搜寻范围。

搜寻:“刘德华 胸围 身高”,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键词,阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办,把这部小说去掉,“刘德华 胸围 身高 -阿泰”,ok,结果出来了,华仔胸围84cm。说明一下,为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。

以上的关键词选择技巧可以谓之“相关词法”。

 

其它常用搜寻个案

例一:找人

分析:一个人在网上揭示的资料通常有:姓名,网名,性别,年龄,毕业学校,工作单位,外号,住址,电话,电子信箱,bp,手机号码,icq号,oicq号等等。所以,如果你要了解一下你多年没见过的同学,那不妨用上述信息做关键词进行查询,也许会有大的收获。

 

例二:找软件

分析一:最简单的搜寻当然就是直接以软件名称以及版本号为关键词查询。但是,仅仅有软件名称和目标网站,显然还不行,因为搜寻到的可能是软件的相关新闻。应该再增加一个关键词。考虑到下载页面上常有“点击此处下载”或者“download”的提示语,因此,可以增加“下载”或者“download”为关键词。

搜寻:“winzip 8.0 下载”

结果:已搜寻有关winzip 8.0 下载的中文(简体)网页。共约有6,670项查询结果,这是第1-10项。搜寻用时0.22秒。

 

分析二:很多网站设有专门的下载目录,而且就命名为“download”,因此,可以用inurl语法直接搜寻这些下载目录。

搜寻:“winzip 8.0 inurl:download

结果:已搜寻有关winzip 8.0 inurl:download的中文(简体)网页。共约有358项查询结果,这是第1-10项。搜寻用时0.44秒。

 

在因特网上随意的下载软件是不安全的,因为供下载的软件有可能带有病毒或者捆绑了木马,所以,对下载网站作一个限定,是一个稳妥的思路。可以用site语法达到这个目的。

 

共享软件下载完之后,使用的时候,软件总跳出警示框,或者软件的功能受到一定限制。由于中国的网民多是穷棒子,所以应该再找一个注册码。找注册码,除了软件的名称和版本号外,还需要有诸如“serial number”、“sn”、“序列号”等关键词。现在,来搜寻一下winzip8.0的注册码。

 

搜寻:“winzip 8.0 sn

 

结果:已向英特网搜寻winzip 8.0 sn. 共约有777项查询结果,这是第1-10项。搜寻用时0.30秒。

 

例三:找图片

除了google提供的专门图片搜寻功能,还可以组合使用一些搜寻语法,达到图片搜寻之目的。

分析一:专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如“gallary”、“album”、“photo”、“image”等。这样就可以使用inurl语法迅速找到这类目录。现在,试着找找小甜甜布兰妮的照片集。

搜寻:“"britney spears" inurlhoto

结果:已向英特网搜寻"britney spears" inurlhoto. 共约有2,720项查询结果,这是第1-10项。搜寻用时0.23秒。

 

分析二:提供图片集合的网页,在标题栏内通常会注明,这是谁谁的图片集合。于是就可以用intitle语法找到这类网页。

搜寻:“intitle:"britney spears" picture

结果:已向英特网搜寻intitle:"britney spears" picture. 共约有317项查询结果,这是第1-10项。搜寻用时0.40秒。

 

分析三:明星的fans通常会申请免费个人主页来存放他们偶像的靓照。于是用site语法指定某免费主页提供站点,是个迅速找到图片的好办法。

搜寻:“"britney spears" site:geocities.com

结果:已在geocities.com内搜寻有关"britney spears"的网页。共约有5,020项查询结果,这是第1-10项。搜寻用时0.47秒。

 

例四:找mp3

分析一:提供mp3的网站,通常会建立一个叫做mp3的目录,目录底下分门别类的存放各种mp3乐曲。所以,可以用inurl语法迅速找到这类目录。现在用这个办法找找老歌“say you say me”。

搜寻:“"say you say me" inurl:mp3

结果:已向英特网搜寻inurl:mp3 "say you say me". 共约有155项查询结果,这是第1-10项。搜寻用时0.17秒。

 

分析二:也可以通过网页标题,找到这类提供mp3的网页。

搜寻:“"say you say me" intitle:mp3

结果:已向英特网搜寻"say you say me" intitle:mp3. 共约有178项查询结果,这是第1-10项。搜寻用时0.73秒。

 

当然,如果你知道某个网站的下载速度快,而且乐曲全,就可以用site语法先到该网站上看看有没有目标乐曲。

 

例五:找书

分析一:对我而言,常访问的电子图书馆类网站就那么几个,比如文艺类www.shuku.net”。于是可以用site语法 site:shuku.net”,就可以马上找到该书。如果没有,通常别的网站上也很难找到。因此,找书的关键,是你了解一大批著名的图书馆网站。

 

分析二:我上面介绍的第一项关键词选择技巧特定词法,对于迅速找到某书或者文章也是极其有用的,当然,这得建立在你已经读过该书,对书的内容有印象的基础上。比如如果了解堂吉诃德一书战风车的大致内容,就可以用“吉诃德 风车 桑乔”迅速找到该书。

 

八,google搜寻faq

 

Q:如何全面的了解google.com

A:查看网站相关页面“http://www.google.com/about.html”。

 

Q:如何切换google.com的初始语言界面?

A:点击搜寻栏右边的“使用偏好”(preferences),选择“界面语言”(interface language)中你期望的语言,点击最下面的“设定使用偏好”(save preferences)按钮。需要提醒的是,googlecookie记录这个偏好,所以如果你把浏览器的cookie功能关掉,就无法进行设定。

 

Q:如何设定每页搜寻结果显示数量?

A:同上,进入使用偏好,在该页的“查看结果”(number of results)选择显示结果数,数目越大,显示结果需要的时间越长,预设是10项。

 

Q:搜寻到的链接无法打开怎么办?

A:链接无法打开的原因很多,比如网站当机,或者isp过滤等,可以点击google

“网页快取”查看在google服务器上的网页缓存。

 

Q:打开搜寻结果的链接,可是该页面太大,很难找到一下子找到目的数据怎么办?

A:直接打开“网页快取”,google会把关键词用不同颜色标记出来,很容易找到.

 



https://blog.sciencenet.cn/blog-113676-52735.html

上一篇:[转载]一篇评价牛顿的搞笑文
下一篇:纳米技术在磁性材料中的应用
收藏 IP: .*| 热度|

2 曹聪 梁先庭

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-28 17:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部