buli的个人博客分享 http://blog.sciencenet.cn/u/buli

博文

citespace学习摘要及心得(摘自《引文空间分析原理及应用》)

已有 47956 次阅读 2016-10-11 10:18 |系统分类:科研笔记| CITESPACE

Citespace使用技巧及心得

1  若要进行文本的内容分析,需要在运行主窗口中term  sources 面板上选择“term”包含的范围,有四个数据来源可供选择,“title”、“abstract”、“descriptors”identifiers,如果选择题目或者摘要,还需要在“term selection”中选择“noun phrases”选项,此选项的功能是将题目和摘要中的名词短语抽取出来,进而可对这些名词短语进行特征词共现分析

2  实际上在多少情况下并不需要对图谱进行修剪,只有在得到的图谱过于庞大和混乱时才使用。

3  时区内修剪和整个网络修剪,建议使用后者

4  提供了三种可视化视图:聚类试图、时区视图和时间线视图。聚类视图侧重于不同研究领域的知识结构,时区视图更注重于描绘各研究主题随时间的演变趋势和相互影响,时间线视图更便于看出某个研究主题研究基础的时间跨度。Ps:时间线视图要用在citedrefernce分析。

5  citespace自动聚类的实现是依据谱聚类算法,谱聚类本身就是基于图论的一种算法,因此它对共引网络这种基于链接关系而不是节点属性的聚类具有天然的优势。传统的聚类算法,如K均值算法,EM算法等都是建立在凸球形的样本空间上,但样本空间不为凸时,算法会陷入局部最优。谱聚类算法正是为了弥补上述算法的这一缺陷而产生的。

6   Q>0.3认为是可信服的,S(轮廓值)>0.5认为聚类是合理的。

7   citespace可以将可视化图谱中的节点和连线存储为.net文件,从而可以利用PajekUCINET进行知识网络的绘制。

7  刘胜博做了一个格式转换程序,对CSSCI原引文数据做了如下处理:

(1)       删除所有包含http的网络引文信息

(2)       删除所有为表明作者的引文信息

(3)       引文中未表明年份的替换为2020

(4)       引文中未标明期刊的替换为N

(5)       引文中出现在标题中的:替换为(无)

(6)       引文中出现在作者名中的,替换为(无)

(7)       引文中书籍的刊名用N代替

(8)       引文中英文作者后面出现的.删除

8  citespace运行生成的可视化图谱为网络图,分析的对象可以针对施引文献和被引文献,形成的网络中的节点会因为不同的分析项目而代表不同的含义,其中auther,institution,country,term,keyword,category,paper,grant针对施引文献,cited referencecited auther,cited journal 是针对被引文献

9 施引文献也称原文献,通常是我们直接搜索到的文献,施引文献中包含了文章作者,机构,国家,标题,关键词,学科类别,基金等信息。

 Auther为作者合作分析,citespace软件给出了合作网络中,包含了各个作者在网络中的重要性指标及网络属性。Ps该领域作者之间的合作关系,是否有合作

Institution为机构合作分析功能。可以得到各个研究领域中的研究力量分布

Term为词贡献分析功能Citespace软件中的term表示文章中的标引词,term来源可以来自文章标题、摘要及关键词部分citespace软件运行过程中如果采用了term词标示,需要在面板term source 模块下选择term 的来源,可以选择一个来源,也可以选择多个来源。使用term分析要比关键词分析更深入到文本内容,反映出来的信息也更全面Ps:而在term source中选择title或摘要又必须在termtype中选择noun phrase,ps:citedreference/journal/auther中通过两次点击citation burst来提取突现词,而在关键词分析中,利用burstdetecting来探测突变词)

Keyword为关键词共现分析功能。分析对象为文档中的DEID字段,得到结果为关键词共现网络,此网络可以反映出某一领域当前研究热点及过去产生过哪些热点研究。

Category 为学科共现分析功能,用于交叉学科的分析,分析对象为文档中的SC字段,通过构建学科关联网络,可以揭示出各个学科之间的内在联系

Paper为文献耦合分析功能,分析施引文献之间的耦合关系,及两篇文献引用了相同的一篇或多篇参考文献,得到的结果为文献耦合网络。

Grants为基金分析功能,分析文献的基金资助情况,得到的结果为资助基金的共现网络

10 被引文献,即为别人引用的文献。这些文献通常具又较高质量才能被别人引用,文献中包含作者,标题,期刊,年份等内容。是施引文献的参考文献吗?应该是节点文献的参考文献。

Citespace软件提供了对共被引文献进行分析的功能,分析对象为文档中的CR字段。Citespace提供了引文数据的详细分析,包括作者被引频次、期刊被引频次及文献被引频次(这三部分均可在内置数据库中操作什么意思啊)另外还包括对引文的共被引分析,分为文献共被引、作者共被引和期刊共被引。

Cited reference为文献共被引分析功能。参考文献共被引是指两篇参考文献被同一篇文献引用的现象,通过分析共被引网络中的聚类及关键节点,可以揭示出某个研究领域的知识结构citespace还能独特的方式表示研究前沿和知识基础、研究前沿的演变,以及在演变过程中起到关键作用的文献。什么独特的方式?

Cited auther 为作者共被引分析功能,作者共被引是指两个作者共同被其他文献引用的现象。Citespace软件计算作者共被引时只考虑第一作者共被引情况,并且同一作者在同一篇文献中被引用多次也按一次计算。通过计算共被引作者关系,可以得到作者共被引网络图,图中可以揭示出某个研究领域的学术共同体Ps同行呗,不是合作关系,而是同一研究领域的作者,合作关系由auther来探测

Cited journal 为期刊共被引功能,期刊共被引是指两本期刊被同一篇文献引用的现象,期刊共被引所反映的是各类期刊及学科间的关联性。通过期刊共被引分析可以获得某研究领域的知识基础分部。

11可视化视图。聚类视图、时间线视图和时区视图,他们多用于文献共被引分析。聚类视图,包括默认视图和自动聚类标签视图,从不同角度展现出研究领域的分布情况,而时区视图和时间线视图则更着重于描绘各个研究领域随时间的演变趋势和互相影响。

默认视图中的节点代表分析的对象,出现频次(或被引频次)越多,节点就越大。节点内圈中的颜色及厚薄度表示不同时间段出现(或被引)频次。节点之间的连线则表示共现(或共引)关系,其粗细表明共现(或共引)的强度。颜色则对应节点第一次共现(或共引)的时间。颜色从蓝色的冷色调到红色暖色调的变化表示时间从早期到近期的变化。默认图谱已经能够显示出形成的知识聚类,聚类之间的联系及随时间的演变。

自动聚类标签视图是在默认视图基础上,通过谱聚类算法生成知识聚类,然后通过从引用聚类的相关施引文献中通过算法提取标签词,以此来表征对应一定只是基础的研究眼前。

时间线视图主要侧重于勾画聚类之间的关系和某个聚类中文献的历史跨度,(ps该功能需要在termtype选项中选中nounphrases)如果选择timeline按钮后,citespace会首先对默认视图进行聚类,并给每个聚类赋予合适的标签,即完成自动聚类和自动标签的过程。然后根据节点所属的聚类(坐标纵轴)和发表的时间(坐标横轴),将各个节点设置在相应的位置上,从而生成时间线视图。由于同一聚类的节点按照时间顺序被排布在同一水平线上,所以每个聚类中的文献就像串在一条时间线上,展示出该聚类的历史成果,因而通过时间线视图,我们可以做如下分析:

(1)      在哪些年份,该聚类开始出现,即有了该聚类的第一篇参考文献

(2)      在哪些年份,给聚类的成果开始增多

(3)      在哪些年份,该聚类开始趋冷,关注度降低

(4)      在整个聚类的发展过程中,在哪些年份出现了哪些标志性的文献(如高被引文献、高中介性文献等),这些文献怎样影响着整个聚类的走势

由于同一聚类被排布在同一水平行线附近,所以聚类内部的共被引关系并不直观,即聚类之间的相互联系和相互影响需要,软件上标注出来的

    时区视图是另一种侧重于从时间跨度上表示知识演进的视图。时区视图可以清晰的地展示出文献的更新和互相影响。如果选择了timezone按钮后,citespace将所有的节点定位在一个横轴为时间的二维坐标中,根据首次被引用的时间,节点被设置在不同的时区中,所处位置随着时间轴一次向上。因为一个从左到右,自下向上的知识演进图就直观地展示出来了。时区视图展示了领域文献的增长,某一时区的文章越多,说明这一时间段中发表的成果越多,该领域处于繁荣时期;某一时区中的文献越少,说明这一时间段中发表的成果越少,该领域处于低谷时期(ps繁荣与否是与节点数量有关系,而非节点大小,但是怎么看呢?是连线的密集程度吗?)。通过各时间段回见的连线关系,可以看出分时间段之间的传承关系。例如,在1999年时区中的节点和2000年时区中的节点的连线较多,说明这两个时间段的传承关系较强,在2000年时区中的节点和2002年时区中的节点的连线较少,说明这两个时间段的传承关系较弱。

12 在时间线视图和时区视图模式下,布局是由年份和聚类决定,只有在默认视图和聚类视图中,才设计布局的调节。想要重新进行布局,首先需要去掉snapshot选项,这个按钮用来选择直接生成结果,还是显示中间过程,如果选择直接生成结果,可能会因为迭代次数不足,起不到调节的效果。在选择snapshot之后,可通过调节下面三个选项来控制布局:stress是给出拟合度stress值,scale是调节单位连线的长度,在布局算法中,连线的长度通常大致保持在某个值附近,这里的scale值即连线的标准长度值。Stretch按住移动标尺,就如施加一个外部拉力,拉开聚类之间的聚类,这样各聚类之间的界限会显得更为清晰。(并没有找到这部分内容)

13   对标签显示进行调节的时候,首先需要选择控制项,分别是中心性(centrality中介中心性)。频次(frequency)及sigma值。默认情况下,中心性是控制项,阈值,字体大小和节点大小分别是15,10,30

14  词节点标签调节。在利用term进行共词分析的时候,citespace提供的调节节点标签调节termlabeling功能主要用于调节词节点及其标签的大小。调节方法同articlelabeling

15  citespace丰富的可视化视图首先体现在节点的显示上,我们可以通过下拉菜单display-noderendering type/node shape/node size/node fill color/node outline color实现对点的样式、点的形状、点的大小、点的颜色、和点的轮廓颜色进行控制。点的样式:1点的大小=引文历史年轮,2点的大小=中介中心性,3点的大小=与向量中心性,4点的大小=sigma指数,5点的大小=pagcrank值,6点的大小=同一尺寸,7根据聚类的组成来设定点的颜色,8点的大小=wos数据库中总被引频次

17  蓝色的年轮表示较早的年份,红色的年轮表示较近的年份,有的节点被以紫圈标注出来,这些节点具有较大的中心度(不小于0.1

18  聚类样式是另一种常用的可视化样式,可以展示网络的聚类。聚类样式中不同颜色的节点代表不同的聚类,随着聚类编号的增加,聚类的颜色从深蓝色变成深红色

19  为了清晰地表示一个聚类的范围,citespace利用多边形或者圆形对聚类添加阴影,其中多边形可以展示聚类的边界,而圆形可以展示聚类的中心,聚类的各种现实可以通过下拉菜单display——cluster来实现

20  过滤显示。作为知识发现和知识挖掘的工具,citespace可以方便地提供特殊节点的查找和突出显示。Spotlight(关键路径),citationburst(引用突现),linkwalkthrongh(分时连线)。

通过citationburst按钮可以找到突现引文,简单地说,突现引文是指引用量突然上升或突现下降的节点。这类节点通常代表某一研究领域的转变,突现的引文节点用红色表示。

通过linkwalkthrough可以将各年的连线按时间顺序进行遍历,以展示科学谱图演进的过程。

Spotlight是突出显示中介中心性高的节点(紫圈节点)之间连接的一种效果图

21

点击节点右键,出现的右键功能。

如果想看到某文献被引用的详细情况,只需要右键点击你所要查询的节点,点击citation history,就会弹出打开一个新窗口,在该窗口中显示该文献在你所选定的时间段中的被引用的历史。一般而言,一篇文章的被引频次随时间的分布是不均匀的,常常是在某些年由于某些原因被频繁引用,而在另外的年份则极少甚至不被引用,citespace中用burst参数来计算一篇文章的突现情况。在被引历史分布图中,突现的年份用粗线表示,该窗口中,还可以查看该文献具体被哪些文章引用过,即该文章的施引文献(ps由此可见,施引文献一语双关,既指该文献,还指引用该文献的文献)。通过查看施引文献,就可以得出高被引文献在哪些领域受到了关注,或者发挥了作用。

22隐藏/恢复节点

去除一些孤立点和不重要的节点,为了使图谱变得整洁,就将其及连线隐藏起来。单击右键hide node ;当某节点是错误节点时,可以有右键功能的add to exclusion list将其彻底删除,一般不用这个功能。

23节点名称合并。在作者分析或期刊分析中常常有作者被表达成两种不同的形式,需要合并。步骤为:1选中节点,右键选择“addto the alias list (primery),2点击待合并节点,右键选择“addto the alias list (secondary)3点击go(重新运行)。第二篇文章就会被合并到第一篇文章中,生成的新节点的被引频次就变成了两篇文章的被引频次之和。(citespace3.3中出现的邱菀华的例子,一会儿有一会儿没有,给他合并了不就得了)

24  节点汇总表。Export——network summary table 可以打开节点相信信息

25  利用右键菜单中的list cluster memberslist citing papers to the cluster,不仅可以查看该聚类中包含了哪些文章,还可以查看哪些文章引用了该聚类中的文章。

26  聚类汇总表,和前面的节点汇总表类似,这里的聚类汇总表显示的是聚类的一些重要信息,包括聚类的规模,轮廓值,中间年,以及通过三种不同的算法得到的聚类标签(问题是怎么打开?)cluster——summery of cluster

27引文聚类后,各类中的施引文献间(聚类中施引文献应该就指的节点文献本身)也具有相互关联关系,在clusters菜单下提供了两个施引文献文本处理工具,可以分别采用向量空间模型和潜在语义分析方法对施引文献构成的网络进行分析。

点击view similarity networks of citing terms(VSM),得到施引文献term词相似网络图,term词之间的相似性关系是通过向量空间模型中的向量相似性得到的。图中每个节点表示施引文献中的一个term 词,连线表示term 词间的相似关系。

潜在语义分析是把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中,从而实现高维空间的去噪处理。这个映射是通过对矩阵的奇异值分解(SVD)来实现的。点击viewciting networks to cluster (LSA).将得到经过LSA降维后保留的施引文献term词和段落信息,

本文是摘自陈锐,陈超美老师《引文空间分析原理及应用》,有部分是自己的困惑和心得。希望与citespace使用者和爱好者分享,共同进步



http://blog.sciencenet.cn/blog-3243177-1007971.html


下一篇:citespace阈值设置的参数实验

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-26 13:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部