博文

关于高频阈值的只言片语

已有 7086 次阅读 2012-12-13 09:51 |个人分类:文献计量学|系统分类:科研笔记| 坐标, 被引文献, 高频, 阈值, 来源文献

高秀敏：到底多少是多啊？

赵本山：自行车？要啥自行车？！

每到截取高频被引论文或者高频主题词或者高被引作者或者核心期刊的时候，总是想起上面的对话。

阈值问题一直困扰着共现分析，甚至比样本问题更为严重。因为没有金标准，涉及到后续聚类等因素较多，没有办法评价。

今日看到一篇古文，其中的片段翻译过来，供参考。

这是一个选择高被引论文阈值的探索，根据我的理解，绘制了一张表格。

序号（R）	论文	被引频次	来源文献S				累计S
序号（R）	论文	被引频次	S1	S2	……	Sm	累计S
1	P1	100	1	0		1
2	P2	99	0	0		0
……	…	…
r	Pr	T					St
……	…	…
N	Pn	1

r:被引文献数；T:阈值；St：高于t阈值所涉及到的来源文献数（矩阵中为1的S总数）

最开始时候，阈值为1时，参考文献总数大于来源文献总数。以后二者变化幅度不同。

引文阈值的选择

图中，横轴是按整数选取的被引文献阈值，纵轴为相应的被引论文数和来源文献数目。

从图中可以看到，从被引次数的阈值为40到阈值为4的在一个很大的引文阈值的区域里，相关的来源文献增长很慢，仅仅从650（22%）增长到了1378（46%）。在这个区域里，被引文献的数目从5到306，也是整个数据库中总共54,638条参考文献中的很少一部分。

在更低的阈值上，被引文献数和来源文献数则增长迅速，百分比计算也是同样的结果。这也不足为奇，因为在我们数据库所收集的文献中，被引文献列表长度上没有太大的变化（mean=22，std=14，skewness=2.2）。对于同被引分析来说，重要的是尽可能多地选择相关的被引论文和来源文献，但是又要不能增加噪音。

在图中，我们看到来源文献数目一直比较稳定，如果从高到低选择阈值，参考文献的数目会增加得比来源文献数目要快。换言之，大多数对这些文献的引用来自于已经在更高阈值上被选中过的来源文献，这还说明增加的信息要多于噪音。但是，如果阈值低于4次，增加的噪音要多于信息了，因为增加的引用大多数来自于高阈值中没有引用过这些参考文献的来源文献。这样，我们就有了依据来选择尽可能低的引用阈值，在我们的例子里，4或者5最为合适。

转载本文请联系原作者获取授权，同时请注明本文来自崔雷科学网博客。
链接地址：https://blog.sciencenet.cn/blog-82196-642135.html

上一篇：进入阵地
下一篇：2012：得失之间

收藏 IP: 202.118.47.*| 热度|

当前推荐数：1 推荐人：魏瑞斌

该博文允许注册用户评论请点击登录评论 (3 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

崔雷

扫一扫，分享此博文

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

关于高频阈值的只言片语

当前推荐数：1 推荐人：魏瑞斌

该博文允许注册用户评论请点击登录评论 (3 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

关于高频阈值的只言片语

当前推荐数：1 推荐人： 魏瑞斌

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：魏瑞斌

该博文允许注册用户评论请点击登录评论 (3 个评论)