|||
本节探讨评价博文的两项指数:网络额度(Internet Credit)用以评价博文在各个搜索引擎的收录快照情况,以反映该博文在网络的影响力。网熵指数(W-entropy Index),用以综合博文的各项指标,以反映该博文在社区内的影响力。
6.1网络额度 得分搜索
图九显示2011年12月中国互联网数据中心(CNZZ)搜索引擎使用情况分析报告[4]。看得出百度搜索,稳居第一,使用率为79.89%;搜狗搜索已达第二,使用率为9.00%;谷歌搜索第三,4.95%;网易的搜搜为第四,4.56%;前四家使用率总计98.40%。本文就以此四家搜索引擎为例,从事博客网络影响力研究。
图九 2011年12月CNZZ中国互联网搜索引擎使用情况分析报告[4]
各家搜索引擎都有一套对网页影响力的评价系统,如百度权重、搜狗分级和谷歌搜索的PageRank等。由于东西方价值观的差异等种种原因,单一搜索引擎的分级标准对博客博文的评估还不能为各方接受。为此,网络额度(Internet Credit)概念应运而生,根据各搜索引擎对博文的收录快照情况,给出该博文在网络影响力指标。图十显示武夷山博主科学网博文《英汉词典查不到(之三十二)》在搜搜快照首页首行。
图十 武夷山博主科学网博文《英汉词典查不到》在搜搜快照首页首行
博客的网络额度(Internet Credit) 如同信用卡在银行的可透支额度,相当于博客博文在各搜索引擎的评估分级信度,具有可累积性。参照各搜索引擎当月在中国市场的使用率,并以此百分数为博文获得各搜索引擎的网络额度。例如,博文由百度收录快照,在搜索结果出现首页首行现象,该文得1分,其百度的网络额度为79.89%。如果此博文同时得到搜狗收录快照,并搜索时出现首行,该文再得1分,博客的累计额度为79.89% + 9.00% = 88.89%,等等。具体得分是这样确定的:
百度:
首页首条科学网原址 1
首页首条 科学网手机版 0.8
首页科学网原址 0.5
首页科学网手机版 0.4
首页其它网址 0.4
谷歌、搜狗、搜搜:
首页首条科学网原址 1
首页科学网原址 0.5
首页其它网址 0.4
按此定义,武夷山博主科学网博文《英汉词典查不到(之三十二)》的网络额度计算参见表十。其中该文在百度搜索上的结果是科学网手机版的首页首条,得分0.8;在搜狗的搜索结果首页内出现其它网站转载此文的地址,得分0.4;在谷歌的搜索结果出现首页首行,得分1;在搜搜的搜索结果出现首页首行,得分1;由此,该文的网络额度为77.02%。
博文 |
百度 |
搜狗 |
谷歌 |
搜搜 |
网络额度 |
||||
权重 |
分数 |
权重 |
分数 |
权重 |
分数 |
权重 |
分数 |
||
英汉词典查不到 |
79.89 |
0.8 |
9.00 |
0.4 |
4.95 |
1 |
4.56 |
1 |
77.02 |
网络额度方法较简单和直观,但问题是百度搜索结果不稳定,收录的文档有时出现,有时没有。搜狗对科学网的博文基本上是不收录。谷歌和搜搜对科学网的博文重视,流量大的博主文档一般都收录,而且结果比较稳定。鉴于此原因等,本文不再计算其它博文的网络额度。
值得一提的是,在网上发文一定要慎之又慎。前不久科学网一位资深博主将其几篇文章删去。即使从科学网上删去了,但由于网络搜索引擎的收录快照功能,这些文章一般还会留在网上。例如图十武夷山博主的博文,在搜搜的查询结果上,大家点击一下右下角的预览,可看到此文在14个人访问时的快照版本。到目前为止,该文的访问量已达到732人次。即使武博主或科学网编辑部小编把此文删去,搜搜网页上的快照还会在网络上保留相当长时间。
6.2网熵指数 博文社区内影响力
科学网信息系统对博客和博文有一系列的评价指标,主要有:博文点击量、评论数和推荐数。在博客首页的热门栏目及其连接分页的排行,均以对此博文的推荐数为准。事实上,仅推荐数并不能全面反映此博文的点击量和热议程度。
网熵指数(W-entropy Index)是基于信息论的申熵概念[5],反映各指数间的的信息分布不均匀性的一项综合指标。此指标已用来反映社交网络成员在各平台的的影响力[6]和综合计算各搜索引擎的网页分级[7]。有兴趣的读者可参考笔者团队有关资料,本节就不再详细介绍理论模型。
表十一列出若干最新科学网博文的网熵指数计算示例。一些博主名声较大,博文惹眼,访问上万,评议过百。为能反映中级会员等网友的博文影响力,本节暂定各项指标最大参照值为:1000访问量、100评论数和100推荐数,超过此数者,指标均取最大值。
表中饶毅博主的:从“美国梦”到“中国梦”:回国五年记,各项指标均取最大值,其网熵指数为100。徐耀博主的:科研故事:选题不当将研究生推出科研之门,平均指数为0.7936,负熵分布系数为0.9566,网熵指数为75.92。曾泳春博主的:那些找不回来的青春年少—后记,平均指数为0.5292,负熵分布系数为0.7849,网熵指数为41.53。
博文 |
访问量 |
评论数 |
推荐数 |
平均 指数 |
分布 系数 |
网熵指数 |
各项指标最大参照值 |
>10000 |
>100 |
>100 |
1 |
1 |
100 |
饶毅:从“美国梦”到“中国梦”:回国五年记 |
14364 |
176 |
212 |
1 |
1 |
100 |
曹广福 :165.6万人报考研究生意味着什么? |
12188 |
98 |
101 |
0.9933 |
0.9999 |
99.33 |
徐耀:科研故事:选题不当将研究生推出科研之门 |
6908 |
93 |
86 |
0.7936 |
0.9566 |
75.92 |
武夷山:某些国际学术期刊是如何“提高”自己的影响因子的? |
11765 |
45 |
76 |
0.7367 |
0.9145 |
67.37 |
陈安:清华大学微博事件:权力让我如此恐惧 |
9336 |
53 |
71 |
0.7245 |
0.9177 |
66.49 |
黄秀清:贺科学网成立五周年:巧遇二傻家的小傻 |
2404 |
66 |
74 |
0.5468 |
0.7861 |
42.99 |
曾泳春:那些找不回来的青春年少—后记 |
3076 |
68 |
60 |
0.5292 |
0.7849 |
41.53 |
李学宽: 现场直播月全食(更新中) |
2160 |
55 |
74 |
0.5020 |
0.7481 |
37.56 |
6.3 博文网熵指数与热门推荐冲突分析
如果只是简单的计算网熵指数,也许就没太大意义。仔细分析1月09日科学网博客上一周内的热门博文排行前一百篇,就会发现一些现象,值得关注。本节以赵斌博主的有关文章为例,展开分析博文网熵指数与热门推荐冲突现象。
赵斌博主2012年1月3日至9日一周内发表十篇博文,列入一周内的热门博文排行前一百篇内的文章有5篇,见表十二。科学网的热门博文是按推荐人数排行的,这5篇文章的次序分别为:14、69、74、82和89。按前述定义,算出网熵指数如表。
博文 1:请注意,《导师教我写第一篇学术论文》有很大的误导性,发表于01月04日,已有2222人次访问,30人次评论,57人推荐,网熵指数为22.69。
博文 2:研究生培养,是精英教育还是大众教育?发表于01月03日,已有5159人次访问,44人次评论,29人推荐,网熵指数为28.58。
博文 3:研究生指导笔记(1):在科学研究上师生是合作关系,发表于01月07日,已有1656人次访问,32人次评论,29人推荐,网熵指数为13.02。
由此看出,博文 2的网熵指数,既影响力大于博文 1,但由于推荐人数稍少一些,远远排在热门博文的后面,第69名。这一点,博文 5与博文 3 和 4 的情况相似。按网熵指数排行:博文 2、博文 1、博文 5、博文 3和博文 4。
|
访问量 |
评论数 |
推荐数 |
网熵 指数 |
网熵 次序 |
热门 次序 |
请注意,《导师教我写第一篇学术论文》有很大的误导性(2012-01-04) |
2222 |
30 |
57 |
22.69 |
2 |
14/1 |
研究生培养,是精英教育还是大众教育?(2012-01-03) |
5159 |
44 |
29 |
28.58 |
1 |
69/2 |
研究生指导笔记(1):在科学研究上师生是合作关系(2012-01-07) |
1656 |
32 |
29 |
13.02 |
4 |
74/3 |
科普工作并不简单,更需要热情和综合素质(2012-01-06) |
1353 |
23 |
27 |
9.26 |
5 |
82/4 |
试论如何避免将研究生推出科研大门之外(2012-01-08) |
4223 |
21 |
26 |
16.43 |
3 |
89/5 |
基于以上博文分析,网熵指数综合访问量、评论数和推荐数三项指标,有一定科学性,解决了上述的热门博文排行冲突问题。可以建议科学网等博客平台,作为热门博文排行指标,以增加科学性和公平性。苏德辰博主在评论笔者前文时曾说过:科学网博客管理已是很好了。的确如此,科学网在国内大多博客类社交网络中,是做得最好的平台之一。笔者从事智能网站和博客运营研究,自然是从优化角度出发,追求最佳方法。实际上,不一定要求科学网就这么做。
衷心感谢以上列举的博文博主,本文只是对博客传播现象分析,不评论博主和博文内容。
参考资料
[4] 2011年12月CNZZ数据中心搜索引擎使用情况分析报告,accessed in 2012。
http://data.cnzz.com/main.php?s=engine
[5] Shannon, Claude, A Mathematical Theory of Communication [J]. Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.
[6] Li Weigang, Jianya, Z., Daniel, L., Analysis of W-entropy Index: the Impact of Members on Social Networks. The IADIS International Conference WWW/INTERNET, pp.171-178,Rio de Janeiro, 2011. Best Paper Award.
[7] 李伟钢,申农理论 负熵算法,科学网博客文章,accessed in 2012。
http://blog.sciencenet.cn/home.php?mod=space&uid=652078&do=blog&id=512373
[8] Sergey Brin, Lawrence Page, The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems (30), pp.107-117, 1998.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-28 02:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社