最近被网民称为神曲的“
忐忑”很火,被很多人翻唱,之所以这么火,搞传媒的、做复杂网络研究的,估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解,来解释一下“忐忑”是“真火”还是”假火”。
(1) “忐忑”(表示为A)被N个人(这里只一般意义上的人)传唱,也就是说A被N个对象引用,按照传统的文献计量方法,N越大,影响力越大;
(2) 显然(1)有不合理的地方,存在虚假引用的情况,比如网络推手的恶意传播,某些娱乐节目的短信投票环节也存在这个问题,那么,就对(1)中的N个引用对象进行区分,某些娱乐节目的做法是请几个“大腕”来打分,他(她)的权重很高,一般人的投票权重很低,然后综合一下得分,从而得到最终排名;
(3) 显然(2)中,请的“大腕”是什么人,这个很重要。是不是公认的权威,这是值得商榷的,比如请其他行业的人来评价某一行业的对象,是否合适?那么有没有比较好的方法呢,文献计量学里就有一个很好的方法,就是依靠引文来解决,发展到后来信息检索领域的经典的
PageRank算法、
HITS算法,是度量引用对象权威程度的公认的好办法,这些方法能综合考虑引用和被引用对象之间的关系,能得到比较可信的权威度(当然,也有在PageRank上作弊的方法,研究人员也想出了很多对策进行“反作弊”)。让我们来继续看A,由于N个引用对象中,有王菲、梁静茹、郭德纲、杜汶泽等M(M<N)个大腕来“引用”,通过PageRank、HITS等算法,计算得到这M个大腕本身的权重或者权威度都比较高,因此通过PageRank、HITS等算法,最终A的得分自然就高;
(4) (3)中用PageRank,HITS算权威度需要很多数据,太麻烦了,有没有比较简单的方法呢? 有的,可以利用各大网站的排行榜,综合一下,也能得到大差不差的结果,单纯靠作弊成“大腕”的可能在一两个网站是可能的,但综合多个网站的排行榜的结果(排除转载的情况),一般可以过滤他(她)们,这个做法类似于综合利用多个大学排行榜,得到一个综合值,从而得到相对可信的排名。
(5) 其他问题,比如是否可以借用“文献半衰期”等方法,来预测下A能火多久等等问题,那就需要更多的数据来做分析了。
(注: 该图由博主制作,带头像的小图均来自于Google图像搜索结果)
以上仅供参考,欢迎讨论。
https://blog.sciencenet.cn/blog-36782-415834.html
上一篇:
新书介绍:Modern Information Retrieval (Second Edition)下一篇:
引擎清洗