共现分析乱弹(3)
已有 5199 次阅读
2012-8-17 09:00
|个人分类:文献计量学|系统分类:科研笔记|
数量, 期刊, 主题词, 共现分析, 样本抽取
3.样本的搜集
一般来说,如果要分析一个学科或者专业的发展状况,我们通常选择该专业的核心期刊,如用JCR选择该领域的综合性核心刊物;如果要分析某一较小的主题,如糖尿病,一般用主题词或者关键词来检索。这样做,目的就是让样本尽可能地代表这个学科研究活动,用期刊可以涵盖较大范围的主题,这是用主题词分类号等手段难以达到的;用主题词检索,则可以把分散在各个期刊的相同主题的论文汇总起来。但是,这里肯定有弊端,比如用高IF值的核心刊,违背了随机的原则?忽略了在同专业非核心刊上的文献?
至于样本的数量,一般我认为3000-5000篇就够了,无论是主题词共现分析或者是同被引分析,经验上这些就够了。如果是主题词分析,下载3000-5000篇文献分析其主题词,在PubMed中主题词总数也达到3万以上了;如果是同被引分析,3000-5000篇来源文献也会带来30000以上的引文。
有的同事愿意搜集全面,甚至考虑将诸多数据库中同主题文献记录汇总去重后进行分析。对此我颇不以为然,我们不是检索服务,是通过统计分析显现一个学科主题的研究状况,只要样本数量足够就可以了。希望能有有心人研究一下,样本数量添加到多少之后,主题词/引文频次排序不再有变化,或者共现次数及聚类结果不再有本质的区别,让大家能省很多力气,也解决一直困然我们的阈值问题。
https://blog.sciencenet.cn/blog-82196-603055.html
上一篇:
七七四十九了下一篇:
Small对同被引聚类结果的描述