崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析乱弹(3)

已有 5199 次阅读 2012-8-17 09:00 |个人分类:文献计量学|系统分类:科研笔记| 数量, 期刊, 主题词, 共现分析, 样本抽取

3.样本的搜集
   一般来说,如果要分析一个学科或者专业的发展状况,我们通常选择该专业的核心期刊,如用JCR选择该领域的综合性核心刊物;如果要分析某一较小的主题,如糖尿病,一般用主题词或者关键词来检索。这样做,目的就是让样本尽可能地代表这个学科研究活动,用期刊可以涵盖较大范围的主题,这是用主题词分类号等手段难以达到的;用主题词检索,则可以把分散在各个期刊的相同主题的论文汇总起来。但是,这里肯定有弊端,比如用高IF值的核心刊,违背了随机的原则?忽略了在同专业非核心刊上的文献?
   至于样本的数量,一般我认为3000-5000篇就够了,无论是主题词共现分析或者是同被引分析,经验上这些就够了。如果是主题词分析,下载3000-5000篇文献分析其主题词,在PubMed中主题词总数也达到3万以上了;如果是同被引分析,3000-5000篇来源文献也会带来30000以上的引文。
   有的同事愿意搜集全面,甚至考虑将诸多数据库中同主题文献记录汇总去重后进行分析。对此我颇不以为然,我们不是检索服务,是通过统计分析显现一个学科主题的研究状况,只要样本数量足够就可以了。希望能有有心人研究一下,样本数量添加到多少之后,主题词/引文频次排序不再有变化,或者共现次数及聚类结果不再有本质的区别,让大家能省很多力气,也解决一直困然我们的阈值问题。


https://blog.sciencenet.cn/blog-82196-603055.html

上一篇:七七四十九了
下一篇:Small对同被引聚类结果的描述
收藏 IP: 59.47.9.*| 热度|

5 许培扬 武夷山 纪雪梅 李智 滕立

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-23 07:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部