章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

“忐忑”背后的计量学原理

已有 5169 次阅读 2011-2-23 15:49 |个人分类:科学评论|系统分类:生活其它| 忐忑, 文献计量学, PageRank, HITS

      最近被网民称为神曲的“忐忑”很火,被很多人翻唱,之所以这么火,搞传媒的、做复杂网络研究的,估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解,来解释一下“忐忑”是“真火”还是”假火”。
   (1)  “忐忑”(表示为A)被N个人(这里只一般意义上的人)传唱,也就是说A被N个对象引用,按照传统的文献计量方法,N越大,影响力越大;
   (2)  显然(1)有不合理的地方,存在虚假引用的情况,比如网络推手的恶意传播,某些娱乐节目的短信投票环节也存在这个问题,那么,就对(1)中的N个引用对象进行区分,某些娱乐节目的做法是请几个“大腕”来打分,他(她)的权重很高,一般人的投票权重很低,然后综合一下得分,从而得到最终排名;
   (3)  显然(2)中,请的“大腕”是什么人,这个很重要。是不是公认的权威,这是值得商榷的,比如请其他行业的人来评价某一行业的对象,是否合适?那么有没有比较好的方法呢,文献计量学里就有一个很好的方法,就是依靠引文来解决,发展到后来信息检索领域的经典的PageRank算法HITS算法,是度量引用对象权威程度的公认的好办法,这些方法能综合考虑引用和被引用对象之间的关系,能得到比较可信的权威度(当然,也有在PageRank上作弊的方法,研究人员也想出了很多对策进行“反作弊”)。让我们来继续看A,由于N个引用对象中,有王菲、梁静茹、郭德纲、杜汶泽等M(M<N)个大腕来“引用”,通过PageRank、HITS等算法,计算得到这M个大腕本身的权重或者权威度都比较高,因此通过PageRank、HITS等算法,最终A的得分自然就高;
  (4)  (3)中用PageRank,HITS算权威度需要很多数据,太麻烦了,有没有比较简单的方法呢? 有的,可以利用各大网站的排行榜,综合一下,也能得到大差不差的结果,单纯靠作弊成“大腕”的可能在一两个网站是可能的,但综合多个网站的排行榜的结果(排除转载的情况),一般可以过滤他(她)们,这个做法类似于综合利用多个大学排行榜,得到一个综合值,从而得到相对可信的排名。
  (5) 其他问题,比如是否可以借用“文献半衰期”等方法,来预测下A能火多久等等问题,那就需要更多的数据来做分析了。
 
 
(注: 该图由博主制作,带头像的小图均来自于Google图像搜索结果)
 
  
    以上仅供参考,欢迎讨论。


https://blog.sciencenet.cn/blog-36782-415834.html

上一篇:新书介绍:Modern Information Retrieval (Second Edition)
下一篇:引擎清洗
收藏 IP: 112.0.38.*| 热度|

16 陈辉 马峥 李斌 何学锋 武夷山 许培扬 俞立平 罗汉江 宁佳 吉宗祥 刘耀 贺天伟 化柏林 王启云 贡金涛 苏金燕

发表评论 评论 (18 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 12:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部