||
胡志刚 | 大连理工大学
对于广大 CiteSpace 的学习者和使用者来说,怎么用 CiteSpace 来绘图,做出来的图谱怎么去用,怎么对这些图谱进行解读,是应用 CiteSpace 进行论文或报告写作的时候最常遇到的三个问题。
在最新一期的 JDIS (Journal of Data and Information Science)中, CiteSpace 的开发者、大连理工大学长江学者讲座教授陈超美博士,以一篇教科书式的完美范文,向我们展示了 CiteSpace 工具怎么用,CiteSpace 论文怎么写。
该文以 Science Mapping 领域为例,用了整整40页和29幅图,从宏观到微观,一步步展示了Science Mapping领域的知识结构、演变进程和重要文献。全文框架清晰,结构流畅,解读深刻,论述详实,是 CiteSpace 使用者不容错过的范文佳作。
在此之前,超美教授亲自示范的比较系统和完整的 CiteSpace 的应用论文,是他在2012年5月发表在Expert Opinion 的一篇关于再生医学(Regeneration Medicine)的论文——这也是超美教授长期以来几乎唯一向人推荐的一篇 CiteSpace 范文。
再生医学一文是超美教授首次借助CiteSpace 工具系统综述了“再生医学”这样一个完全陌生的研究领域,以检验CiteSpace工具和方法能够在多大程度上让一个没有相关专业知识的人也能给出有价值的综述。
最终,利用CiteSpace软件中的结构性和时间性指标,超美教授识别出日本京都大学山中伸弥团队的两篇论文在“再生医学”领域具有优异表现和重要影响。而巧合的是,该文发表后5个月,山中伸弥凭借这两篇论文成功获得了2012年的诺贝尔生理学奖,为这篇“预见性”论文画上了一个非常完美的句号。
时隔5年,CiteSpace 已经从当初的3.0版本升级到5.0版本,新版中增加了Dual-map、Term Tree等新功能,还对原来的聚类标签生成算法、时间线(TimeLine)视图等进行了升级。CiteSpace 5.0版本怎么用,怎么去解读,在 这篇JDIS 论文中,陈超美教授给出了你想要的标准答案。
本文是对陈超美这篇 JDIS 论文的导读,共分为四个部分:
(1)数据检索——查全率和查准率哪个重要?
(2)写作路径——如何利用图谱组织成文?
(3)论文写作——CiteSpace论文写给谁看?
(4)理论升华——如何避免空洞的看图说话?
一. 数据检索
查全率和查准率哪个更重要?
在这篇JDIS论文中,超美教授照例选择了 Web of Science 数据库作为数据来源,并设计了一个非常系统的综合检索策略,如下图所示:
(Chen2017, Figure 1)
这个检索策略中包含了Science Mapping 有关的工具(#1)、理论(#2)、方法(#3)和数据库(#11)等。这既可以看作是一种基于领域本体的检索模型,也是基于文中所论述的Shneider四阶段理论框架的衍生。最终的数据来源是在综合取舍后选取了#1、#2和#3 的并集,共计有17731 篇。
而在2012年的再生医学论文中,则采取了完全不同的另一种检索策略:先是用 TS=“regeneration medicine” 检索得到3500余篇论文,然后在数据库中通过“创建引文报告”(create citation report)的方式,进行了检索结果的扩展,得到这3500篇论文的施引文献,共计5万多篇。
超美教授认为,由于这5万篇论文引用了包含“再生医学”主题词的3500篇论文,因此有理由认为它们也属于“再生医学”领域的相关论文。
你有没有发现:这两篇论文中,虽然采取了不同的检索策略,但是都呈现出一种非常宽松的检索取向。
我们在进行数据检索的时候,常常要面临“查全率”和“查准率”的取舍问题。一般来说,查准率高,查全率就低;查全率高,查准率就低。由于查全率不高所造成拒真错误,又被称为 I 型错误;由于查准率不高所造成的取伪错误,有被称为 II 型错误。
比如大家最常采取的关键词或主题检索,就是一个查准率较高而查全率较低的检索方案。如果用 TS=“Science Mapping” 进行主题检索,那么检中的论文当然都是最相关的,但一定也漏掉了很多其实属于 Science Mapping 领域,但是遗憾的没有使用 Science Mapping(而使用了其同义词)的论文。
因此,为了改善单纯的关键词或主题检索中查全率不高的问题,通常都需要对检索结果进行了扩展。因此,在再生医学论文和 JDIS 论文中,超美教授分布通过“施引文献扩展”和“主题词综合检索”的策略,显著提高了检索结果的查全率。
查全率高了,查准率相应的就会降低。对于这个问题,超美教授的观点是:
Pragmatically it is easier and more efficient to simply skip an irrelevant branch than keep refining the original topic search query untill all noticeable irrelevant topics are eliminated..
从实用的角度讲,相对于对原始的检索结果不停的进行精炼和清洗直到将所有无关的研究主题都排除在外,一个更容易也是更有效的办法是(留着它们,但是在生成的科学知识图谱中),解读的时候跳过这些个研究聚类或分支就是了。
也就是说,不相干的检索数据在后续进行科学知识图谱分析中,会自己暴露出来。例如,在下面的概念树中,容易看出,heart rate variability 为混进来的无关数据。
(Chen2017, Figure 9)
在数据检索阶段,花费过多的时间,无止境的追求更高的查准率,既麻烦也容易造成不必要的误伤。超美教授认为应该优先保证查全率,数据的完备性比数据的准确性更为重要。在 I 型错误和 II 型错误之间,宁愿犯 II 型错误,因为这种错误还有机会在后面的分析过程中进行修正。
二. 写作路径
如何将图谱组织成一篇有条理的论文?
如何把图谱组织成一篇条理清晰的论文,是很多 CiteSpace 用户非常关心的问题。在这篇 JDIS 论文中,超美教授给出了一个完备且清晰的写作框架。
强烈推荐大家将这篇JDIS论文与2012年的那篇再生医学论文进行对照阅读,你会发现,虽然这两篇论文中采用的图谱样式几乎完全不同,但是超美教授在写作思路和论文框架上却又异曲同工,一脉相承。
在这两篇论文中,写作进路都是从宏观到微观,从直观到复杂,从整体到局部,从一般到特殊。具体分析内容包括:学科分析(宏观)-> 主题词分析(微观&直观)-> 共被引分析(复杂&整体)->典型聚类分析(局部)-> 结构变异性分析(特殊)。
2.1 学科分析
在学科分析中,再生医学采用的是简单的学科共现分析;而在这篇 JDIS 论文中,采用的是 4.0 版本之后出现的双图叠加(dual-map overlay)图谱,如下图所示。
(Chen2017, Figure 4)
在这幅图中, 左侧是施引文献所在的期刊分布,代表了 Science Mapping 所属的主要学科(如左下角的2. Medicine, Medical, Clinical 区域);右侧是对应被引文献所在的期刊分布,代表了 Science Mapping 主要引用了哪些学科(如右上角的1. Systems, Computing, Computer 区域)。
前者可以看做是 Science Mapping 的领域应用,后者可以看做是 Science Mapping 的研究基础。显然,双图叠加视图所展现的信息,比再生医学一文中所用的学科共现图谱(如下图所示)更为丰富了。
(Chen2012, Figure 1)
2.2 主题词分析
学科分析代表了一种宏观视角,到了主题词分析,就是一种微观视角了。
主题词分析的好处是非常直观,容易解读,只要认识单词就可以读懂。相对而言,共被引分析则需要人工查询引文的具体指称(因为引文节点只显示作者、年份和期刊名等,而不显示引文标题),解读时的工作量和难度就要大的多。
因此,通常在共被引分析之前,优先进行一个主题词分析是一个高性价比的选择。
在再生医学的论文中,主题词分析采取的是共词分析方法,用了一个利用最小生成树算法剪枝得到的共词网络(见下图)。由于共词网络通常比较致密,利用最小生成树可以解决整体图谱结构“一团乱麻”的问题,让主题词分布更为舒展和清晰。
(Chen2012, Figure 2)
在新的 JDIS 论文中,采取了一种新的树状图——概念树,如下图所示。该树状图是基于题目或摘要中语句生成的,从中提取了这些语句中有层次的有机结构,有点类似于“本体”。
为清晰起见,超美教授还手工标识出了这个概念树中属于研究领域(绿框)、方法(橙框)、抽象概念(青框)、工具(灰框)和数据库(红框)的主题词,方便对概念树有一个更加深入的认识。
(Chen2017, Figure 5)
与再生医学一文中的共词网络相比,JDIS论文中的概念树视图还有一个另外的好处:由于很多外文期刊没有关键词,利用简单的共词网络实际上忽略了那些没有关键词的论文的存在,而概念树是基于标题和摘要生成的,所以覆盖了所有论文,显然更为合理。
2.3 共被引分析
共被引分析是CiteSpace的核心功能,这一点从 CiteSpace 的名称上就看得出来。共被引分析也一直是超美教授在应用 CiteSpace 分析时的重中之重。
下图是 JDIS 论文中的共被引网络的聚类图谱。单从视觉上来看,这份图似乎不够好,各聚类分的不够清楚。
(Chen2017, Figure 7)
但是,从这幅图的模块度和轮廓值指标来看,这幅图在聚类方面是理想的。
The network has a modularity of 0.8925, which is considered as very high, suggesting that the specialties in science mapping are clearly defined in terms of co-citation clusters. The average silhouette score of 0.3678 is relative low mainly because of the numerous small clusters. The major clusters that we will focus on in the review are sufficiently high.
网络的模块度是0.8925,可以说是非常高的,这意味着这一共被引聚类可以清楚的界定出science mapping 的各个子领域。聚类效度评价的另一个指标——平均轮廓值的分值是0.3678,相对较低,这主要是因为很多小聚类的存在,对于本文中我们关注的大聚类来说,平均轮廓值其实是非常高的。
共被引网络视图中,聚类的位置和聚类之间的关联性,可以展现Science Mapping 领域的知识结构(Intellectual Structure),让读者对这一领域的全貌有一个整体的认识。
共被引聚类图谱是应用 CiteSpace 进行可视化分析时几乎必备的图谱样式。在再生医学一文中,也给出了如下图所示的共被引聚类视图,只是配色与这篇 JDIS 论文中的略有不同。
(Chen2012, Figure 3)
2.4 时间线分析
在生成共被引聚类图谱之后,将聚类编号作为 Y 轴,引文发表年份作为 X 轴,就可以布局得到共被引网络的时间线图谱。
时间线视图,可以展现各个聚类(即子领域)发展演变的时间跨度和研究进程。比如,最上方的聚类#0所代表的领域,时间跨度从1997年直至2015年,且在2003年到2010年间有一系列重要的里程碑式的成果。
(Chen2017, Figure 8)
时间线视图是 CiteSpace 中一个非常天才的设计,对于我们了解各个子领域的演进路径提供了非常直观而准确的参考。在新的 CiteSpace 5.0 版本中,超美教授更新了时间线视图的样式。
对照再生医学一文中所采用的 CiteSpace 3.0 版本的时间线视图(如下图所示)可以看出,新版中的连线采取了新的拱桥型样式,并在聚类下方列出了每年中的三个高被引论文(红色字体,本图中字体小不易识别,可以参见下一节中局部放大视图),整体上更为清晰和美观。
(Chen2012, Figure 4)
2.5 典型聚类分析
以聚类为单元,在聚类层面上进行分析,尤其是选取较大的或较新的典型聚类进行分析,是超美教授在整体视图之后的关键分析内容,也是共被引分析的落脚点。
Cluster analysis helps us to understand the major specialties associated with science mapping.
聚类分析可以帮助我们理解 Science Mapping 有关的主要研究领域。
在JDIS 这篇论文中,从17页的4.3.1到 29页的4.3.4,超美教授依次分析了四个最大的聚类。对于每个单独的聚类来说,超美教授都会提供以下四个方面的图谱和信息:
1、概念树
展现该聚类的主要研究对象和研究内容。
(Chen2017, Figure 9)
2、时间线及其细节图
展现该聚类的时间跨度和峰值区间,并列出每年中被引次数最高的3篇论文。
(Chen2017, Figure 10)
3、重要被引文献
列出该聚类中 Sigma 值最高的20篇被引文献。这20篇引文在结构性和突现性综合表现上最优。
(Chen2017, Figure 11)
4、重要施引文献
列出覆盖率(Coverage)最高的20篇施引文献。例如,排在第一的 van Eck, NJ (2010) 引用了该引文聚类中的24篇,占该聚类所有214篇引文的11%,是与该聚类最相关的一篇施引文献。
(Chen2017, Figure 12)
在再生医学一文中,虽然分析的没有如此细致和详细,但是仍然列出了聚类中的“高被引论文”以及“高覆盖率的施引文献”,如下图所示。
(Chen2012, Table 5)
2.6 结构变异性分析
在这篇JDIS 论文的最后一部分,超美教授利用 CiteSpace5.0 中的新层(Layer)叠加视图,展现典型高产作者的引用足迹(citation Trajectories),并通过对引用足迹的分析,判断该作者对于网络结构的变异性所造成的影响的大小。
下图中分别展现了White HD(美国德雷塞尔大学教授、作者共被引分析方法的提出者) 和 Thelwall M(英国伍尔弗汉普顿大学教授,网络计量学的提出者)的引用足迹。
(Chen2017, Figure 25)
显然,二者覆盖的聚类和研究的领域有明显的不同。左侧的 White HD 教授(发表的8篇论文)引用的参考引文主要位于时间较早(蓝色)的聚类#4和#1中;右侧的Thelwall M 教授(发表的14篇论文)的参考引文主要位于时间稍晚(绿色)的聚类#6(university web site)中。
引用足迹除了可以展现一个作者的主要研究领域,还可以展现出该作者的重要性。超美教授认为,如果一个作者的研究连接了原来并不关联的多个聚类,那么该作者具有很大的变革性潜力(Transformative Potentials)。
The idea is to identify the potential of an article to make extraordinary or unexpected connections across distinct clusters. According to theories of scientific discovery, many significant contributions are resulted from boundary spanning ideas.
这种思路旨在识别出一篇论文的如下潜力,即(通过引用不同领域的论文)将原本完全不同的聚类联系在一起,而且这种联系越是出乎意料和不同寻常,这篇论文的潜力就越大。根据科学发现的理论,许多重要科学贡献都来自于跨领域的研究。
在再生医学一文中,同样进行了结构变异性分析,但是具体方法却不尽相同。
在再生医学一文中,主要通过计算了每一年加入新的论文之后网络模块度(Modularity)数值的变化,判断哪一年(而不是JDIS论文中所关注的哪位作者)的论文对网络结构造成的变异更大。
(Chen2012, Figure 5)
可以看出,2007年和2009年新发表的论文,导致了网络模块度的剧烈下降,即原本分散的聚类在一定程度上被“整合”在了一起。也就是说,这两年中发表的某些,构建了原本不相关的聚类之间的桥梁,从而让整个领域发生了结构性变异。
三. 论文写作
CiteSpace论文应该写给谁看?
对 CiteSpace 图谱进行解读,有点像“看图说话”,但是,能够清楚明白而又通俗易懂的把图中的信息描述出来,让读者跟上你的思路和论述,通常并不容易。
解读图谱,也是很多 CiteSpace 用户在学会简单的操作之后面临的另一个挑战。
很多写作者没有意识到自己和读者之间存在着巨大的信息差甚至是知识差。他们在解读 CiteSpace 图谱的时候,喜欢说“由该图可以明显看出”,可实际上,在读者看来,通常一点都不明显。
要让读者跟上你的思路,理解你的论述,你得首先降低到读者的认知层面,用尽量简单和直白的语言进行描述。
3.1 假定读者没用过 CiteSpace
CiteSpace 是一个有点复杂的工具,但是读超美教授的CiteSpace论文,你发现你不需要有 CiteSpace 的任何相关经验。
举个例子,在介绍怎么生成CiteSpace图谱的时候,很多中文的 CiteSpace 论文会这么写:“设置时间切片为1年,选择阈值 Top N=100”,没用过 CiteSpace 的读者看到这儿一定是满脸问号。
而超美教授是这么写:
The following landscape view is generated based on publications between 1995 and 2016. Top 100 most cited publications in each year are used to construct a network of references cited in that year. Then individual networks are synthesized. The synthesized network contains 3,145 references.
基于1995年到2016年间发表的论文,可以生成如下 landscape 视图。首先,选取每一年中被引次数最高的前100篇引文,构建当年的共被引网络。然后,将各年的网络进行合成。合成后的网络中共计含有3145篇引文。
读懂这段话不需要读者会用 CiteSpace 。读者只需要知道这些节点怎么选取的就行了,他们并不需要知道在 CiteSpace 里面怎么操作。
超美教授甚至假定,读者从来没有见过 CiteSpace 图谱,也不清楚里面的节点、连线、颜色和聚类标签的含义是什么样的。比如,他会通俗的写到:
The areas of different colors indicate the time when co-citation links in those areas appeared for the first time. Areas in blue were generated earlier than areas in green. Areas in yellow were generated after the green areas and so on.
一个聚类的区块颜色表示的是该聚类中共被引关系第一次发生的年份。蓝色的区块要比绿色的区块早,黄色的区块要比绿色的区块晚,如此等等。
3.2 省略不必要的信息
不高估读者的知识水平,不等于事无巨细的告诉读者所有信息。
使用过 CiteSpace 的用户可能知道,CiteSpace 中生成聚类标签的算法有三种:LIS(5.0版本之前为 TF*IDF),LLR 和 MI。但是,选用了哪种算法其实不是读者在观察图谱的时候想要知道的信息。强行告诉读者这个信息的话,反而容易给读者带了不必要的困惑和思维负荷。
在 JDIS 一文中,超美教授非常克制地没有介绍生成聚类标签时所采用的具体算法,只是简单介绍了聚类标签的文本来源,最大程度的避免增加读者的思维负担。
Each cluster can be labeled by title terms, keywords, and abstract terms of citing articles to the cluster.
每个聚类的标签可以用引用该聚类引文的施引文献的标题、关键词和摘要中的主题词来进行标记。
论文写作不是炫技。事实上,文章中包含的公式和算法越多,读者数量和被引次数越少。写作论文就像设计一个产品,作者应该尽量把文章写得傻瓜化,而不是相反。
读者在阅读 CiteSpace 论文的时候,通常不关心图谱是如何生成的。如果他们想知道图谱是如何生成的,他们应该去读教程和手册,而不是看你的论文。
3.3 强调关键信息
不给读者他们不需要知道的信息,与此同时,还要给读者他们想要知道的信息。要找到这两者的边界,关键是要知道读者想要知道什么。例如,中心度(Betweenness)的具体计算公式是读者不需要知道,但是它的具体含义是读者想要知道的。
在再生医学一文中,关于中心性,超美教授这样写到:
The betweenness centrality of a node in the network measures the importance of the position of the node in the network. Two types of nodes may have high betweenness centrality scores: 1) Nodes that are highly connected to other nodes such as hubs. 2) Nodes that are positioned between different groups of nodes. We are particularly interested in the second type because they are more likely to lead to insights into emerging trends than the first type of nodes.
网络中节点的中介中心性测量的是网络中节点的位置重要性。有两类节点可能具有较高的中介中心性:1)与其他节点高度相连的枢纽节点;2)位于不同聚类之间的节点。我们对于第二类节点更感兴趣,它们比第一类节点更可能导致新兴趋势的出现。
在这一段,超美教授没有借助复杂的公式,仍然清晰的展现了什么是高中心型节点。你可以尝试一下用同样的策略,向读者介绍一下突现值、Sigma、模块度、轮廓值等指标的具体内涵和意义。
四. 理论升华
如何避免空洞的对着图谱看图说话?
CiteSpace是一个文献可视化工具,但它又不仅仅是一个工具。在工具的外壳之下,CiteSpace其实蕴含着一个非常坚实的理论内核。
这也是 CiteSpace 有别于其他可视化工具的重要一点。
超美教授曾说,解读 CiteSpace 就是要找紫圈,找红圈!我们知道,在CiteSpace这,紫圈代表着高中心性,红圈代表着高突现性。CiteSpace之所以将这两类节点进行特别的标记,是因为它们符合库恩的科学革命理论中关于重要科学发现的特征和特点。
CiteSpace的开发过程中处处体现着科学发现和发展的理论内涵。这些理论背景,一方面指导了 CiteSpace 的功能设计和开发,一方面也为 CiteSpace 图谱的解读提供了理论升华的机会。
在这篇 JDIS 论文中,陈超美教授首先在引言中为我们介绍了科学增长和变革(Scientific Change)的有关理论,尤其是Shneider (2009)的四阶段理论。利用这一理论,他对Science Mapping 中最大的聚类进行了如下解读:
A specialty may experience the initial conceptualization stage, the growth of research capabilities through the flourish of research tools, the expansion stage when researchers apply their methods to subject domains beyond the original research problems, and the final stage of decay (Shneider, 2009). The largest cluster is dominated by an overwhelming number of tool-related references. The top 20 most cited members of the cluster include several software tools such as CiteSpace (C. Chen, 2006; Chaomei Chen et al., 2010), UCINET (Borgatti et al., 2002), VOSViewer (van Eck & Waltman, 2010), and global maps of science (Leydesdorff & Rafols, 2009). In terms of the four-stage evolution model of Shneider, the underlying specialty evidently reached Stage II – the tool building stage by 2010.
一个研究领域,一般先经过最初的概念形成阶段,然后随着研究工具的大量出现,研究的能力和范围开始增强,此后进入扩散阶段,研究者将这种方法应用到原本的研究问题之外的领域,最后进入衰减阶段 (Shneider, 2009)。在最大的聚类#0中,与研究工具有关的引文占了绝大部分。聚类中被引次数最高的20个引文中,包含了CiteSpace、UCINET、VOSViewer和global maps of science等多个工具和软件。按照Shneider的四阶段理论,这个研究领域在2010年之前明显处于第二阶段,即大量工具的开发阶段。
有了理论的支撑,我们就可以解读出图谱结果背后的规律性信息,避免空洞的看图说话的尴尬。理论不仅仅让你的解读锦上添花,还是论文写作过程中可以一以贯之的逻辑主线。
在这篇JDIS论文中,很多分析都是围绕四阶段理论进行展开的——正如再生医学一文中的很多分析都是围绕 Sigma 指标展开的一样。
要想系统地了解超美教授开发CiteSpace的理论基础,大家可以去读一下超美教授的两部重要的著作:《科学前沿图谱:知识可视化探索》和《转折点:创造性的本质》。在这两本书中,详细阐述了CiteSpace 相关的科学革命理论、结构洞、觅食、创造性等多个理论,可以帮助我们更全面的理解CiteSpace工具,并且更加深入的解读CiteSpace图谱。(本文作者系大连理工大学 WISE 实验室教师,本文仅代表作者个人观点。)
如何引用该文:
Chaomei Chen. Science Mapping: A Systematic Review of the Literature[J]. Journal of Data and Information Science, 2017, 2(2): 1-40.
Chaomei Chen, Zhigang Hu, Shengbo Liu & Hung Tseng. Emerging trends in regenerative medicine: A scientometric analysis in CiteSpace [J]. Expert Opinionon Biological Therapy, 2012, 12(5): 593-608.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 13:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社