智商情商网熵田园分享 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵。

博文

3.相关搜索 分级无关 精选

已有 5535 次阅读 2011-11-21 08:00 |个人分类:社交网络|系统分类:科研笔记| 科学网, 社交网络, 相关搜索, 网页分级

看重创新程度,还是看重大众兴趣?关键词的相关搜索结果应大同小异,由于网页评级取值互不相关,百度、搜狗和谷歌的排序却小同大异,让网友、商家甚至SEO站长莫是一衷,无章可循。本文系李伟钢在科学网博客的连载《混沌网络 谁主沉浮》第三节,博客版共由7部分组成:0) 序;1) 科技新高,群像丛生;2) 云里雾中, 难见施公;3) 相关搜索 分级无关;4) 取长诸家,网熵分级;5) 申农理论,负熵算法;6) 网络大同,任重道远;欢迎各位专家和网友到访指教。

 

一些搜索引擎对科学网博客等大学科研机构的网站评级较低,是个价值观认同问题。正如网友对本系列博文的评论中提到:是看重创新程度,还是看重大众兴趣?这是创新文化与模仿文化的区别。本文旨在介绍网络搜索排行常识,网友们,特别是科学网博主们,了解网页评级实情,共同研究合理网页分级技术,促进百度、搜狗携科学网等繁荣昌盛,形成健康的网络文化。科学网编辑部发博客手机版、在腾讯开户微播,积极向社会推荐科技类精选博文,就是很好的举措。


本节研究国内主要搜索引擎对1)网络媒体;2) 大学科研;3) 金融银行;和4) 航空通讯4类机构或企业的42家网站的网页评级分布情况。通过各项指标的相关分析,指出建立一个具有客观意义和综合功能的参考性网页分级理论和指标体系的重要性和必要性。


百度、搜狗和谷歌对12家网络媒体类网页评级分布情况见表三。看得出,三家搜索引擎对百度的评级较为一致,均为9级。表中加权分级是参考中国互联网发布的201110月份搜索引擎使用率[2],百度权重占81.1%;搜狗评级和谷歌PageRank的权重分别9.45%


相关系数(Sample Coefficient of Correlation)是衡量变量(YX)之间相关程度的一项指标[6]为了便于分析,文中暂时定义相关系数介于0-0.20间为互不相关,0.21-0.40间为不太相关;0.41-0.60间为有点关, 0.61-0.80 间为基本相关,0.81-1.0 间为线性相关。表四显示该类网页评级相关性系数,此矩阵具有对称特性,表中上半部分列出相关数据,下半部分为定性描述。

 

对网络媒体类网页评级,百度权重与搜狗分级之间互不相关,相关系数为0.0663。此两家和谷歌PR间也不相关,相关系数均小于0.20。百度权重和平均分级不太相关(0.2311),但和加权分级线性相关(0.8978)。这也是很自然的,因为百度权重的比例占81.1%。搜狗分级和平均分级线性相关(0.9329),和加全分级有点相关(0.4749)。谷歌PR和平均分级有点相关(0.4085),和加权分级互不相关(0.0447)


表三 百度、搜狗和谷歌对网络媒体类网页评级分布情况



表四 百度、搜狗和谷歌对网络媒体类网页评级相关性系数

 

 

百度、搜狗和谷歌对12家科技教育类网页评级分布情况如表五显示。对该类网站分级,三家搜索引擎的指标分歧更大。如前面章节提到的,百度给上海交大和浙大的权重为4,而谷歌PR值为9级。要说上海交大在Alexa的网站流量排名不算低,位居全球中文网站的第888位,远比丁香园的第1249位靠前,但后者网站的百度权重为6,硬是比交大高上2级。在网络话语权的大是大非面前,信了吧?服了吧?同时,网络传媒大师马云就在西子湖畔,何不特约浙大讲座,支上几招,办几个钱塘社区、宁波帮网之类的酷站热博。要知道,网络时代,不在Alexa中文排行千名上下,没把百度权重、搜狗和谷歌排行搞掂,能成为世界性著名大学吗?

 

表五  百度、搜狗和谷歌对科技教育类网页评级分布情况


 

表六列出该类网页评级相关性系数。对科技教育类网页评级,百度权重和搜狗分级间互不相关,相关系数为0.0709;百度权重和谷歌PR有点相关(0.4737)和平均分级基本相关(0.6947)、和加权分级线性相关(0.9874)。搜狗分级和谷歌PR、平均分级间基本相关,相关系数分别为0.62850.7326;和加权分级不太相关(0.2204)。谷歌PR和平均分级线性相关(0.8798),和加权分级有点相关(0.5890)

 

表六 百度、搜狗和谷歌对科技教育类网页评级相关性系数


 

为验证上述结果,笔者扩大样本数量,除上述36个网站之外,另加一组6家航空、通讯类的企业网站,共计42个。总结上述分析结果,可得出如下初步结论。

 

1)网络搜索,实际上是关键词的相关搜索,展示的结果应是大同小异,但由于百度、搜狗和谷歌的网页评级取值互不相关,这几位国内搜索引擎大当家的排行规则不一致,结果的次序排列却小同大异,让网友、商家甚至SEO站长莫是一衷,无章可循。在原有的网络搜索的理论和算法基础上,国内市场需要一个具有客观性、综合性、参考性的网页分级理论和指标来补充和校正各家评级。拾遗补缺,和谐互惠,正是本文研究的宗旨。

 

2)百度、谷歌和腾讯三家网站的平均分级均为9,但各家搜索引擎给出的评级实际分布是不一样的。例如,腾讯网站的百度权重为10、搜狗分级为9和谷歌PR值为8。对此,加权分级能反映出这种信息分布的不均匀性。如腾讯网站的加权分级为9.72、百度网站为9,谷歌网站为8.28。另一个例子如表5中,中科大和中科院网站的平均分级均为6,但两家的加权分级分别为5.284.57

 

3)从上述442家网站数据分析表明分析还可以看出,百度权重和搜狗分级指数均与上述定义的平均分级有较好的线性相关关系,相关系数分别为0.87960.8437。谷歌PR和平均分级有一定的相关性,相关系数为0.3635。只有百度权重和加权分级有很好的线性关系(0.9958)。搜狗分级与加权分级相关性一般(0.6297)。谷歌PR与加权分级不太相关(0.1968)。为此,本文建议采用平均分级来作为下一节提出的综合分级指数的基本参数。这个综合分级指数还应具备加权分级的优点,基本上能反映各搜索引擎给出的评级信息分布的不均匀性。

 

4)对国内一些传统行业,如银行、金融、航空、电讯等机构和企业的网站,百度权重和搜狗分级相对稳定一些,两家分级指数间的相关性也较好。但对一些新兴产业,特别是对社交网络和媒体,百度权重、搜狗分级和谷歌PR值间的差别较大。对这些新型或传统企业和机构,搜索引擎的评级都十分重要,因为电子商务是其核心业务的组成部分。赢得网络话语权,就能畅通产品和服务的营销渠道。

 

5)对国内一些大学科研机构,正如前面一再强调的,百度权重和搜狗分级相对较低,而谷歌PR分级较高,形成反差较大。一方面说明了中西方的价值观;另一方面也说明了大学科研机构应强化自身的网站建设,保留自我,展现出科技精英对社会的主导作用。


有关数据来源是这样的:a)百度权重来源于:站长之家百度权重查询(mytool.chinaz.com); b)搜狗分级来源于搜狗网站本身,网友只是用要查询的网址(请注意,不是关键词) 进入sogou.com即可得到;c)谷歌PageRank的查询较成熟,可查询的地方很多,如PageRank 值在线查询(www.123cha.com/google_pagerank)


通过上述分析,综合多家搜索引擎网页分级,提出新的参考性指标显得十分必要。下一节《取长诸家,网熵分级》将展示基于信息理论的网熵分级(W-entropy Rank), 此指数源于诸家,仅为参考。

 

感谢百度、搜狗和谷歌等所涉及网站团队的辛勤工作,文中如有不合适描述以及数据不准确等,敬请告诉笔者。同时,限于篇幅,博客版暂略表7-9以及相关内容。

 

 

参考资料

 

[2] 201110CNZZ数据中心搜索引擎使用情况分析报告,accessed in 2011       http://data.cnzz.com/main.php?s=engine

[6] 相关系数,百度百科,accessed    in 2011。http://baike.baidu.com/view/172091.htm





https://blog.sciencenet.cn/blog-652078-510103.html


下一篇:5.申农理论 负熵算法
收藏 IP: 189.72.206.*| 热度|

6 刘广明 赵美娣 程智 田灿荣 刘洋 许海云

发表评论 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 22:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部