李淼的个人博客分享 http://blog.sciencenet.cn/u/李淼

博文

再谈佩奇等级

已有 3009 次阅读 2007-8-5 07:35 |个人分类:闲聊

 

佩奇等级,是PageRank的翻译,也许更加文雅一点的翻译应该是佩奇秩。

我在我过去的一篇博文中提到佩奇等级:

引用率

不知不觉,11个月过去了。随后我为《新发现》写了一篇专栏文章《点击率,引用率和谷歌数》,其中谷歌数就是佩奇等级。

佩奇等级来源于1998年Lawrence Page等人写的一篇论文,题目是《The PageRank Citation Ranking: Bringing Order to the Web》,从文中看,PageRank中的Page指的是web page,但现在好多人将Page看作是该文第一作者的姓,我想这是网友们对Lawrence Page表示的敬意。Page是当时Google的CEO,现在,佩奇等级应用很广。

佩奇等级的主要想法是,不是以某网页的点击率来计算该网页的重要程度,而是以该网页得到多少链接数,以及每个链接它的网页本身的重要程度来决定该网页的重要程度,这就使得一些流氓网站利用关键词的搜索获得在搜索引擎的高排列失败。当时对Google这样的搜索引擎还是很重要的一个办法。

真正的佩奇等级的定义稍微复杂了些,我引用原文的对简单化了的一个佩奇等级的定义:

令u是某个网页。令是这个网页链接过去的所有网页的集合,令是所有链接u网页的网页集合。中网页数目(也就是u网页上的链接数),取为某个归一化常数,那么简化的u的佩奇等级

很明显,这是一个迭代算法。为什么不用这个看上去很好的简化了的佩奇等级呢?因为这个定义中有一个漏洞会使得迭代得不到一个肯定的结果。

上面的迭代公式可以写成矩阵形式,令,即当网页u被网页v链接时为,否则为0,就有

R是A的本征矢量,并且是极大本征矢量(c是极大本征值)。

好了,我们不谈技术的东西了。现在谈谈Google的应用。Google将最大的佩奇等级定义为10,毫不奇怪,Google自己的佩奇等级就是10,还有一些不多的佩奇等级为10的网页。

我觉得很奇怪,为什么没有佩奇等级为10的中文网页?我觉得新浪应该是佩奇等级最高的中文网页了,它的首页的佩奇等级仅仅是7,而它的国际足球首页等级更低,才5。这个结果很奇怪,我找不到合理的解释。

同样,Google在中国的最大竞争对手百度的佩奇等级也是7。作为对比,我们常用的arXiv的主页等级是9,而SLAC的SPIRES主页的等级是8。arXiv在中国的镜像是6,也不算低了。本博客的等级是5,还算满意。我的个人主页的等级则是4。

科大交叉中心的中文主页的等级也是5,而理论所的主页等级是6-我怀疑得到了arXiv中国镜像的好处 :-)

再举一个等级是10的例子,就是我常用的观察本博客被访问情况的网站(这个博客最右下手的访问统计也来自于这个网站:http://www.statcounter.com。

我觉得佩奇等级的计算对中文网页有很大的偏见,例如,所谓中文第一博的老徐同学的佩奇等级居然是0,而牛博网首页的等级是4(小于我的博客,等于我的个人主页)。格致的等级是5。

看来还是英文博客的好处多,要么的确是人家的读者多,Lubos的等级是6,cosmic variance和not even wrong的等级都是7。

测测你的博客的佩奇等级吧:

佩奇等级在线预测

—————————————–

本来我不打算再多谈PageRank的事了,PageRank高固然可喜,低也不可自卑。但susy,mark sun和桑葚等朋友的讨论使得我多想了一会。我将回答桑葚的话附在后面吧。也许我完全是错的,希望知识更多的同学有以教我。

17.

新浪的链接自然不会太多,但老徐博客的链接很多很多,为什么她的PageRank等于0? 起码她的链接是我的千倍左右。我有来自国外的链接,她有更多。

我当然知道权重的事,参看本博文的公式。不论怎么计算,老徐博客的PageRank不会等于0,唯一的可能是中文博客的很多地址,特别是门户网站的,根本不在统计之列,还有一个比较vicious的可能是这些网站开始的赋值就是0。

至于你说“另外,不只是链接数目的问题。不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。”,参看我的博文的开头。

谢谢你给的链接,可惜他的很多话不过是我给出的那个公式的罗嗦解释。

我觉得陈辉给出的那个链接

The Chinese Site With Highest PageRank

中的一句话很有意思,这句话是:

Google says “PageRank relies on the uniquely democratic nature of the web” and “Google interprets a link from page A to page B as a vote” - alas, we all know what democracy and vote mean in China.

什么意思呢?是不是Google学会了中国人的办法,将所谓的democracy和vote 零化了? 我们是不是可以将”we all know what democracy and vote mean in China.” 变成“we all know what democracy and vote mean with Google when it comes to blogs in Chinese.

你是一个纯粹的人,我是一个多心的人,but, 世界是复杂的。至少我认为老徐博客真正的PageRank远远高于我的,使得我怀疑0值的奇怪来源。

以上那段话是什么意思呢?一,我觉得即使是科学化的计量如PageRank,不免掺杂了竞争的因素,所以变得不那么科学了,甚至很丑陋了。二,我们中国和外面的世界在信息这个大世界还没有一体化,中国需要继续努力,不要以为自己信息产业已经很发达了。不论是因为自己没有足够国际化的原因,还是人家不来我们玩的原因,我们都得正视这件事,而不能关起门来自己玩。

我顺便公布一下我得到的链接数吧。根据technorati的统计,我有441个链接。但是,technorati在计算我的博客的排名时,只用了131个。我是互联网盲,不知道这是什么意思,有兴趣的不妨去

这里

看看。

这个链接排列是根据权威来的,排在最前面的是来自桑葚的链接,其次是变态家族、奇迹笔记、我自己、格致、脑力劳动……

而且,似乎没有一个是来自新浪博客的,但是我知道我有不少新浪博客的链接。可怜的新浪,被老外鄙视了。同学看看其中有没有来自你们的,如果你们加了我的链接,但在这个列表中找不到你的博客,你也被老外鄙视了 :-)



https://blog.sciencenet.cn/blog-3047-5464.html

上一篇:反动派
下一篇:弦论的哲学
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-28 09:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部