tuqing123的个人博客分享 http://blog.sciencenet.cn/u/tuqing123

博文

基于位置的共被引权重改进研究

已有 3132 次阅读 2019-8-15 18:05 |系统分类:论文交流| 引文分析, 共引分析, 共被引分析, 引用位置, 回归分析

基于位置的共被引权重改进研究


1 引言

1.1 选题缘起和意义

1.2 国内外研究现状分析

    1.2.1 国外研究现状

    1.2.2 国内研究现状

    1.2.3 对同类研究的总结

1.3 本文的创新

2 统计量与数据准备

2.1 调查对象与统计量的确定

2.2 统计量的数据来源

3 权重的确定

3.1 论文样本的选取

  3.2 样本关联程度的专家判断

  3.3 回归分析

    3.3.1 最小二乘法

    3.3.2 回归分析

  3.4 参数估计

4 对权重的检验

  4.1 检验方法的确定

4.2 检验变量的选取

5 文献结构分析

  5.1 关联矩阵与相关系数矩阵的建立

5.2 相关系数矩阵的处理

  5.2.1 聚类分析

  5.2.2 多维标度分析

  5.3 处理结果的分析与解释

6 关联程度调整前后的文献结构对比

  6.1 传统的文献共引分析

  6.2 处理结果的比较与解释

6.2.1 文献结构的细化程度考察

6.2.2 文献结构的合理性考察

7总结


1.引言

共引分析对于文献以及相关概念的结构分析具有直观性与有效性,在对共引分析进行应用时,能够注意到不同位置的共引次数对于文献之间紧密程度的表示的重要性是不一样的,所以需要对共引次数按照所在位置进行加权,这样文献结构分析的结果可以更加细化,或者会更具有合理性,本文对基于位置的共引分析进行了探讨,通过对样本论文的近似紧密程度与样本论文的紧密程度的专家判断的回归分析,对不同位置上的共引次数赋予了不同的样本权重,如果能够通过总体上的检验,那么这种权重在总体上也具有统计上的适用性,进一步地,在通过总体检验的基础上,对得到的权重进行了实证分析,目的是为了检验权重确定方法的合理性。

 

1.1选题的缘起和意义

共引分析自从提出后就得到了广泛的关注,该理论是建立在文献之间的关联程度的基础上,通过分析文献之间的距离来得到文献之间的结构关系,可以对某一领域的研究内容进行划分,对相关的研究热点进行揭示,所以可以作为一种有效的情报分析方法,随着应用范围的不断扩大,人们将考察对象逐渐延伸到了其它的相关概念,由此形成了不同类型的类共引分析方法,例如作者共引以及期刊共引,可以通过作者或期刊之间的同被引次数来定义作者或期刊之间的距离,由此可以利用相同的处理方式来考察作者或期刊之间的结构关系,在此基础上可以对作者或期刊进行聚类,相同的处理方法也可以应用到关键词上,由此可以形成共词分析,例如如果两个关键词在论文中同时出现的次数越多,那么这两个关键词之间的紧密程度也会越高,在此基础上可以通过分析关键词之间的距离来得到关键词之间的结构关系,可以对关键词进行聚类,也可以对某一领域的研究内容进行划分,根据关键词的热度可以得到某一领域的研究热点,共引分析发展到现今,已经有了比较成熟的分析流程,以文献为例,首先需要获取文献之间的共引次数,在此基础上可以构造文献之间的共引矩阵,在共引矩阵的基础上可以得到文献之间的相关系数等相似性度量,由此可以对文献之间的距离进行表示,其次可以对得到的文献之间的距离进行处理,通常包括聚类分析以及多维标度分析,由此来对文献之间的结构关系进行揭示。

随着共引分析的进一步发展,对于面临到不同问题,人们对共引分析也进行着不同的修正,例如不同位置上的共引次数对于文献之间紧密程度的表示的重要性应当是不一样的,例如两篇文章具有在同一段落中的共引次数,与只在同一章节中具有共引次数的情形相比,后者对于文献之间紧密程度的表示的重要性是相对较低的,所以需要对不同位置上的共引次数分别赋予不同的权重,在此基础上可以对文献之间的共引次数进行加权求和,然后再利用传统的共引分析流程来进行文献结构分析。

在确定不同位置上的共引次数的权重时,为了在一定程度上减少人为判断所带来的主观性,否则不同的加权会带来不同的文献结构关系,所以需要建立相对较为客观的权重确定方法,例如可以在样本论文的基础上求出被引次数的样本权重,具体可以对文献之间的共引次数进行加权求和,其中的权重是当共引次数位于不同位置时所赋予的位置权,将这种文献之间的共引次数的加权求和作为文献之间的紧密程度的近似衡量,进一步地,可以给出这些样本论文之间的紧密程度的专家判断,那么通过对样本文献紧密程度的近似衡量与专家判断的回归分析来推出共引次数位于不同位置时的位置权。

从样本论文得到的共引次数的位置权是否在总体上可行,需要进行检验,利用得到的共引次数的位置权对样本文献之间的共引次数进行加权求和,将和值作为样本文献之间紧密程度的近似衡量,同时每两篇样本文献具有专家给出的紧密程度判断,这样可以得到样本文献的近似紧密程度和专家判断的紧密程度之间的相关系数,对这种相关性进行总体上的检验,如果在总体上相关系数仍然比较高,那么这种权重在总体上也具有统计上的适用性。

在确定共引次数在不同位置上的权重后,可以得到文献之间的近似的紧密程度,可以利用传统的共引分析的流程进行处理,包括相关系数矩阵的建立以及对相关系数矩阵的处理,可以对文献结构的细化程度以及合理性进行考察,这也是对这种权重确定方法的合理性的一种检验。


1.2国内外研究现状分析

1.2.1国外研究现状分析

本文以EBSCO图书馆信息科学与技术全文数据库、Elsevier Science全文数据库、Springer全文数据库中为数据源,关键词分别是“co citation”、“co-citation”、“Co-citation Proximity Analysis”和“Co-citation Analysis”进行检索。在调查后发现国外学者从1973年共引分析方法诞生以来就开始对其持续关注。从相关研究成果的内容上来看,国外共引分析研究的发展大致可以归纳为三个阶段:

从引文索引到共引分析,1955年美国著名情报学尤金.加菲尔德提出利用文献引用的参考文献描绘科学研究进展的设想,并于1963年创立了《科学引文索引》,借助《科学引文索引》使引文分析法进入实用阶段,加菲尔德通过分析引文数据发现利用被引次数可以判断论文的学术影响力。1965年普赖斯在其发表的论文“Networks of Scientific Papers”中借助《科学引文索引》研究了论文之间的引用与被引用关系,指出文献间的引用关系可以用“引证网络”的形式表示,“引证网络”展示了引证论文和被引论文之间复杂的网络关系,为引文分析奠定了理论基础。美国麻省理工学院的学者M.M.Kessler在1963年发表的一篇论文中引入了文献耦合的概念,并且被情报学家尤金.加菲尔德的研究认可。文献耦合是指两篇论文的参考文献中都引用了一篇或多篇相同的文献,相同的参考文献数量即为两篇论文的耦合强度,耦合强度越高文献相关或者相似的概率就越大。这是最早利用引文分析法计算文献相似度的研究之一,但是其有用性受到质疑,被指出两部文献引用的参考文献的主题可能与这两篇文献的主题完全不相关。此外,文献耦合是一种回溯性的文献相似性度量方法,这就意味着用于建立文献之间相似性关系的信息来自过去并且是静态的,即书目耦合强度不能随时间变化,因为参考文献的数目是固定不变的。1973年美国情报学家H.Small和原苏联情报学家Marshakova同时提出了共引分析的概念,共引(co-citation)是利用文献之间的引文关系衡量文献之间的相似度。共引的定义是两篇文献被另一篇文献同时引用的频率。如果两篇文献至少被另一篇文献共同引用,则称这两篇文献是共被引的关系,使用共同引用它们的文献数量表示其共引强度。两篇文献获得的共引次数越高,其共引强度越高,他们在内容上相关的可能性就越大。共引分析方法通过考察论文在发表之后被引用的情况来评估论文的相似性,解决了文献耦合不能随时间变化的这一缺点。此外,共引关系还反映了许多作者的观点,是一种较好的主题相似性评估指标。1972年Amsler发表等论文描述了通过结合文献耦合与共引分析来确定两篇文献之间主题相似性的方法。

共引分析的概念进一步推广,得到了各种类型的共被引概念,例如期刊共被引、作者共被引、共词分析等。继Small之后,1981年White和Griffith将文献共被引的概念延伸到著者,提出作者共引分析(Author Co-Citation Analysis,ACA),该方法假定两个作者的文章同时被后继的研究引用则表明这两个作者之间具有联系性,且共同被引用的次数越多,他们之间的关系就越紧密。White所用的作者共引分析方法是只对第一作者进行共引分析,所以Zhao打破了这种只对第一作者进行共引分析的方法,采取对所有的著者都进行共引分析,结果发现根据两种方法所绘制出来的核心著者群并不相同,对差异的产生原因也进行了分析,由此对著者共引分析方法提出了改进措施。2008年, Zhao和Strotmann将作者共被引与文献耦合两种分析方法结合起来,以定义作者文献耦合分析(ABCA),并指出只要作者活跃,这个指标就不是静态的,而且当它结合作者共被引分析时非常有用。

期刊共被引是以期刊作为基本单元,期刊共引能够将众多的期刊有机地联系起来,其目的在于揭示期刊集合的内部结构关系,包括期刊相互间的聚类关系以及聚类与聚类之间的交叉等,利用期刊的共引关系可以用来辅助确定学科的核心期刊,以及进一步明确某些期刊的学科分类,例如学科边界比较模糊或者是具有交叉学科性质的期刊。其中的代表性工作包括McCain在1991年首次将期刊共引分析方法应用于经济学领域以考察各相关期刊之间的结构关系,Ming-Yuch Tsay则在2003年利用该方法对半导体领域的期刊进行了聚类分析,Liu于2004年用期刊共引分析方法,对城市规划方面的期刊与文献进行了考察,并对其中存在的期刊结构进行了可视化。Boyack等利用期刊相似性矩阵、共被引地图及相互引用地图对科学结构进行解读和说明。

共引距离分析由Gipp于2006年提出构想,后来Gipp和Beel在2099年发表的论文中描述了文献相似度的衡量方法。共引距离分析是使用引文分析,评估引文在文献全文层级或者在单独部分当中的语义相似性的一种文献相似性的度量方法。这种相似性度量是建立在共引分析方法的基础上,但是不同之处在于其利用了文献全文中引文的引用位置所隐含的信息。共引距离分析的相似性度量是基于假设的前提下,在文献的全文当中彼此引用位置接近的文献往往比引用位置距离较远的文献的相关性更强。共引距离分析的相似性度量是建立在共引相似性度量方法的基础上,不同的是前者增加了引用位置的距离分析。因此,共引距离分析对于全部的文献考虑了更细精确度的文献相似性计算。共引距离分析已经被证实其表现优于共引分析,特别是当文献包含大量参考文献时,以及文献未被频繁引用的情况下(即具有较低的共引次数)。Liu和Cheng发现,与松散耦合的文章层次共引相比,句子层次共引的标记用于共引分析可能更有效,因为句子层次的共引常常保留了传统共引网络的基本结构,也是形成所有共引实例的最小子集。Schwarzer等人的对wikipedia引用链接分析表明,基于引文的共引距离分析和共引分析,与基于文本内容的相似性度量相比具有互补的优势。基于文本内容的相似性度量方法可以从维基百科文章的测试集合中可靠地识别出更为严密的类似文章,例如对于共享相同术语的文章,共引距离分析方法不仅在识别更广泛的相关文章以及更受欢迎的文章方面具有更高的质量,并且优于共引分析方法。

     Elkiss等将共被引划分为四个层次,但分别是句子层次共被引、段落层次共被引、章节层次共被引和文章层次共被引。通过定量分析发现共被引文献间的相似性与它们在引证文献中引用位置的接近度成正比,在同一个句子被引用的文献比在同一段落但不同句子被引用的文献更为相似。Gipp Bela和Beel Joran在文献被引用的位置越近,文献越相关的假设前提下将共被引关系划分为5个层次,分别是相同句子层次共被引、相同段落层次共被引、相同章节层次共被引、相同期刊层次共被引、相同期刊不同版本层次共被引、将相同句子层次的共被引关系权重设置为1,以下分别为1、1/2、1/4、1/8、1/16,他们还采用相关文档检索的方法来验证位置层次赋值和共被引效果的有效性,结果发现,加入共被引权重后的检索效率要比传统未加入权重的检索效率提高2倍。Liu和Chen用共引距离(the proximity of CO-citation)描述共引文献的引用相对位置距离,从句子、段落、章节、文章四个层面探讨全文本科学出版物的共引距离,并统计了22种开放存取期刊中共引频次与共引位置的关系。Boyack采用共被引位置信息来提高共被引聚类效果,加入共被引位置后的共被引聚类效果比传统共被引聚类提高30%;通过全文本数据提高共引聚类的精度,他们用两共引位置间字节数占全文字节数百分比来表示共引距离,将共引层次划分为在同一位置、小于5%、5%到15%、15%到25%及25%以上,权重分别设置为4、3、2 、1和0。Callahan也采用了类似的方法来计算共被引关系强度,将全文层次的共被引权重赋予1,共被引层次每深入一层,共被引权重加1。Eto则将共被引划分为4类,分别是同引用标签共被引、同句子共被引、同段落共被引和不同段落共被引,权重值分别赋为4、3、2、1。同时他考察了引用位置在信息检索中的应用,发现加入共被引权重后,对信息检索效果有明显提高。

   本文以EBSCO图书馆信息科学与技术全文数据库、Elsevier Science全文数据库、Springer全文数据库中为数据源,关键词分别是“co citation”、“co-citation 、“cocitation”、“co-cited”和“co cited”进行检索。在调查后发现国外学者从1973年共引分析方法诞生以来就开始对其持续关注。从相关研究成果的内容上来看,国外共引分析研究的发展大致可以归纳为四类:

    1)文献共引分析研究。共引分析是由Small[1]Marshakov[2]分别在研究文献的引证结构和文献分类时同时提出的理论,作为测度文献之间关系程度的一种新方法;Small认为共引可以用来反映两篇文献研究内容的相似性,并且通过共引分析可以揭示出某学科的科学结构,他通过研究粒子物理学领域高被引文献的共引情况,来考察这些文献在研究内容上的相似性,并和文献耦合方法所揭示的文献内容相似性进行比较,指出共引分析是研究科学结构的有效方法。后来,Small为了综合揭示自然科学和社会科学的结构,通过多次聚类以反映不同学科之间的关系,同时通过对多年的聚类图进行比较以分析学科之间关系的变化[3]。在选择分析对象时,常用的方法是以文献的被引次数作为依据,也就是确定一个阈值,将被引次数大于等于该阈值的文献集合作为分析对象,但不同的学科文献的被引次数相差甚远,这样不同学科之间进行对比分析时就会受到影响。为此Small[4]提出了用分数引文量来选择文献集合,其中文献的被引频次是用引用文献的引文数量来进行加权,以此来平衡学科差异,同时在那些引文率较低的学科中,Small等人引入了可变水平聚类方法和以类聚类的反复聚类方法。在实际应用方面,Small等人开发了基于共引分析理论的SCI-Map来描绘科学文献间的结构关系[5];而且共引理论也不再仅仅局限于揭示科学结构,还可以用来描述科学结构的变化,以及根据不同学科间的共引关系分析两个学科之间是如何联系在一起的,从而可以用来揭示与描述知识结;ISI还利用共引聚类方法来确定科学研究的前沿。文献共引分析还可以总结出学科研究领域的研究重心变化,例如Small等人对20世纪70年代十年间胶原蛋白的研究文献进行共引分析,分析了胶原蛋白研究重心的转移的变化原因[6]

    2)作者共引分析研究。1981年,WhiteGriffith[7]将文献共被引理论拓展到以作者共引关系,提出作者共引分析(Author Co-Citation AnalysisACA),该方法假定两个作者的文章同时被后继的研究引用则表明这两个作者之间具有联系性,且共同被引用的次数越多,他们之间的关系就越紧密。在此之后WhiteMcCain利用作者共引[8],考察了文献计量聚类和情报检索聚类,WhiteMcCain1995年再次利用作者共引分析,对19721995年间的文献作者的共被引情况作了分析,最终总结出情报学的24年来的发展历程和情报学的学科结构,并将分析结果可视化[9]White所用的ACA方法是只对第一作者进行共引分析,所以Zhao[10]打破了这种只对第一作者进行共引分析的方法,采取对所有的著者都进行共引分析,结果发现根据两种方法所绘制出来的核心著者群并不相同,对差异的产生原因也进行了分析,由此对著者共引分析方法提出了改进措施。另外,在与信息检索的结合方面,White提出从共引分析的角度改进检索方法,从而提高检索效率[11]Mccain[12] 使用作者共被引分析、PFNet分析对60个著名作者进行共被引聚类,利用知识获取中的卡片分类法由46个软件工程师将相同的作者群分类到不同标签组中,实验结果表明两种方法能产生相似的聚类,且能提供有效的交叉验证。

    3)期刊被引分析研究。期刊共引能够将众多的期刊有机地联系起来,其目的在于揭示期刊集合的内部结构关系,包括期刊相互间的聚类关系以及聚类与聚类之间的交叉等,利用期刊的共引关系可以用来辅助确定学科的核心期刊,以及进一步明确某些期刊的学科分类,例如学科边界比较模糊或者是具有交叉学科性质的期刊。其中的代表性工作包括McCain1991年首次将期刊共引分析方法应用于经济学领域以考察各相关期刊之间的结构关系[13]Ming-Yuch Tsay则在2003年利用该方法对半导体领域的期刊进行了聚类分析[14]Liu2004年用期刊共引分析方法,对城市规划方面的期刊与文献进行了考察,并对其中存在的期刊结构进行了可视化[15]Boyack等利用期刊相似性矩阵、共被引地图及相互引用地图对科学结构进行解读和说明[16]Liu等将词汇、引用数据作为期刊的精细化表达,使用平均规范化互信息的加权方案进行合并,通过加权聚类集成和加权核融合聚类方法聚类,结果表明新的加权混合聚类策略具有更好的性能和有效性[17]

    4)对共引分析方法的改进研究。该类研究除了指出共引分析方法存在的问题之外,更进一步的提出修改方法。 White2003年采用PFNETS199年的数据再次进行分析,比原来的算法减少了计算强度,得到了更为准确可靠的分析结果。加拿大 Alberta大学的 Zhao 2006 年提出了另外一种作者共引分析的方法,将合著者加入算法,使得计算结果更加清晰。Eom也于2008年对ACA的不同算法做了比较研究,得出将全部作者加入算法更利于同一个领域内作者影响力的比较的结论。有学者研究发现在不同位置层次的共被引文献间的关系程度是不同的。考虑共被引发生的位置层次,可以更精确地解释共被引关系。Elkiss[18]等将共被引划分为四个层次,但分别是句子层次共被引、段落层次共被引、章节层次共被引和文章层次共被引。通过定量分析发现共被引文献间的相似性与它们在引证文献中引用位置的接近度成正比,在同一个句子被引用的文献比在同一段落但不同句子被引用的文献更为相似。Gipp BelaBeel Joran[19]在文献被引用的位置越近,文献越相关的假设前提下将共被引关系划分为5个层次,分别是相同句子层次共被引、相同段落层次共被引、相同章节层次共被引、相同期刊层次共被引、相同期刊不同版本层次共被引、将相同句子层次的共被引关系权重设置为1,以下分别为11/21/41/81/16,他们还采用相关文档检索的方法来验证位置层次赋值和共被引效果的有效性,结果发现,加入共被引权重后的检索效率要比传统未加入权重的检索效率提高2倍。LiuChen[20]用共引距离(the proximity of CO-citation)描述共引文献的引用相对位置距离,从句子、段落、章节、文章四个层面探讨全文本科学出版物的共引距离,并统计了22种开放存取期刊中共引频次与共引位置的关系。Boyack[21]采用共被引位置信息来提高共被引聚类效果,加入共被引位置后的共被引聚类效果比传统共被引聚类提高30%;通过全文本数据提高共引聚类的精度,他们用两共引位置间字节数占全文字节数百分比来表示共引距离,将共引层次划分为在同一位置、小于5%、5%到15%、15%到25%及25%以上,权重分别设置为432 10Callahan[22]也采用了类似的方法来计算共被引关系强度,将全文层次的共被引权重赋予1,共被引层次每深入一层,共被引权重加1Eto[23]则将共被引划分为4类,分别是同引用标签共被引、同句子共被引、同段落共被引和不同段落共被引,权重值分别赋为4321。同时他考察了引用位置在信息检索中的应用,发现加入共被引权重后,对信息检索效果有明显提高。

1.2.2 国内研究现状分析

本文以CNKI数据库为数据源,以共引共被引共引分析作者共引同被引等关键词作为检索词进行检索,国内的共引分析研究可以分为四部分:

    1)共引分析方法的实证研究。主要利用共引分析的方法是对于某一学科领域、研究主题绘制科学知识图谱并分析。赵党志[24]利用利用聚类分析和多维标度技术对1987年农业科学文献进行了文章共引分析,把众多的分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来,在此基础上分析研究分析对象所代表的学科及文献的结构和特点。赵党志[25]以农业科学期刊为例,介绍期刊共引分析方法,即利用聚类分析、多维标度技术、因子分析等多元统计分析方法,研究学科及其期刊结构和特点。邱均平[26]以制浆造纸领域为例,利用作者共被引分析方法,采取多元分析与社会网络分析相结合的技术,绘制相关知识领域的可视化图谱,验证基于作者共被引分析方法的知识图谱在学科研究方面的有效性和可靠性。邱均平[27]以图书情报领域研究本体的作者为例,利用作者共被引分析,探索基于作者共被引的馆藏资源聚合模式,并在实现资源聚合的基础上,探析聚合服务的途径。近年来,关于共引分析方法实证研究的文章数量更是稳步增加,从侧面反映出了共引分析方法正在成为一种较为常用并且有效的计量分析工具,利用该方法能够将抽象的科学结构可视化,从而方便专家学者的进一步研究。杨利军[28]等人还从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊共被引分析是否需要将数据进行标准化处理的结论及切比雪夫距离是期刊共被引分析中相似性测度的理想选择。赵勇[29]利用Web of Science中的SSCI数据库,199620088月期间收录的24种图书情报学核心期刊引文进行了期刊共引分析,并绘制了图书情报科学研究的知识图谱。

2)共引分析方法的理论研究。相较于实证应用类文献,理论方法的研究文献稍显逊色。这是因为共引分析的研究步骤都是按照固定的方法流程,首先构造共引矩阵;再将其转化为相关系数矩阵;然后就是进行聚类和多维尺度分析等对数据进行分析和解释。一些学者对国内外共引分析的研究进展进行了综述,总结了共引分析的研究发展趋势和变化。王建芳[30]等系统总结了共引分析理论与方法的发展过程;分析了共引分析在应用和实践层面,特别是科学结构揭示方面的进展。耿海英[31]等阐述了国外文献共引分析研究和作者共引分析研究的发展过程,并指出共引分析中存在的问题及其发展趋势。另外耿海英还对共引矩阵是否需要转化为相似系数矩阵,以及采用哪种系数测度方法会更为合理等方面展开了讨论[32]。苑彬成[33]等综述近几年来作者共被引分析在研究方法上面临的挑战,归纳其最新的研究进展和发展趋势。王玲玉[34]考察了国内共引研究的现状,并对比分析国内外共引研究的差异,指出国内共引研究发展的瓶颈。朱亮[35]等人对共引分析的国内外相关文献进行了统计分析,研究得出国外共引分析研究前沿包括了应用研究和方法研究两方面内容,国内共引分析研究热点紧跟国际前沿,科学知识图谱相关研究占据了其中最重要的地位。步一[36]等人对国外作者共引的研究进行了较为全面的评述分析,从方法论视角对作者共引研究中涉及的关键问题予以说明和综述。张云[37]Web of Science数据库中共被引聚类最新的、重要的研究成果进行梳理,共被引聚类研究成果主要表现为理论、方法类研究和应用研究两大类,理论、方法类研究更注重算法研究。国内一些学者将引文出现的位置纳入共引分析的变量,对传统的共引分析提出了一些改进方法。刘盛博[38]等人提出一种基于引用内容相似度的共被引关系权重计算方法,将共被引位置与内容相结合,使共被引关系权重更具客观性和准确性。在比较加入权重的共被引聚类结果与传统共被引聚类结果后,发现加入共被引权重后的共被引聚类,不仅聚类内文献间关系更紧密,还能更好地揭示施引文献所表达的主题。赵蓉英[39]等构建了基于位置的共被引分析方法框架,过实证研究发现引文在全文中的分布极不均匀,大部分引用都集中在文章的前面部分,且引用经常成簇出现,不同类型的文献引用分布不同;文献对的相似性不但与共被引频次有关,也与共被引层次有关。

3)共引分析方法的分析对象研究。当Small1973年提出文献共引后,共引一词就被运用到与文献相关的各种研究对象上,各国学者根据文献共引的概念形成了各种类型的共引概念,如:关键词共引、文献共引、作者共引、期刊共引、共词分析等,其中文献共引和作者共引是国内外共引分析中最常用的两种方法。对于期刊共引的研究主要是实证研究和计算方法改进的研究.王贤文[40]提出一种将期刊的共被引情况标准化,可以减少数据误差的期刊共被引率矩阵的计算方法,验证了从JCR4个学科中随机选择若干种期刊聚类的结果与JCR中的期刊学科分类完全一致。杨利军和张良友[41]在总结前人几种对角线取值方法的基础上,从社会网络、共被引分析的原理和期刊动态变化的特点三个角度出发,认为期刊共被引矩阵对角线的取值应为该期刊与自身的实际共被引次数,并通过实证数据进行验证。刘超[42]等人以图书情报学的18CSSCI核心期刊为例,构建期刊互引矩阵和期刊共被引矩阵,研究发现期刊共被引在区分关联的强弱、分析期刊桥梁作用上有优势,而期刊互引在划分学术期刊群上更具合理性。作者共引分析的研究文献近年来出现的研究成果较为丰富,国内作者共引分析的研究主要包括学者间关系描述和作共引分析方法的改进研究。作者共引分析可以用于描述学者间的关联程度,归纳研究相同领域和区分不同研究领域的学者。朱云霞[43]等人将传统研究中的学者间合著关系与文献引用关系进行集成,构建基于合著与共引关系的学者关联度模型;该关联度计算模型能够反映合著关系也能够体现相互间的共引关系,并利用学者间的共引关系来挖掘学者间潜在的合作机会。秦长江[44]采用作者共引分析方法,同时对采用多元统计分析和社会网络分析两种技术方法所构建的知识图谱的特点、差异和效果进行对比分析。传统的作者共被引分析方法通过计算共被引次数转化成相关系数矩阵进行研究,这种方法由于输入的信息量过少会存在一些缺陷,导致分析的结果存在一些偏差,针对这类问题一些学者提出了作者共引分析的改进方法。李秀霞[45]等为改善作者共被引分析在识别学科领域知识结构中缺乏内容信息的不足,将文献的题名、摘要、关键词等内容信息引入到作者共被引分析中,提出一种新的作者共被引分析方法。步一[46]等人将引文间发表时间差距与原始作者共引关系依不同权重计算带有时间信息的共引矩阵,并通过矩阵转化和多元分析后进行结果分析与解释,不同引文间的发表时间在一定程度上可以凸显作者间的被引强度关系,利用引文发表时间信息强化传统的算法使作者共引关系更紧密。黄文彬[47]等人引入时间变量,找出领域发展期间的转变关键节点,并以此作为时间切片的划分依据,利用作者共引分析绘制每个时间切片内部的知识图谱,观察领域内的子领域发展与核心作者的变化。黄文彬[48]等还将引文发表时间信息和扩展作者共引关系依据不同权重计算带时间信息的共引矩阵,改进了传统作者共引分析方法的作者频次计算方法。有些学者对利用作者共引绘制知识图谱的方法进行了改进研究[49],黄文彬以合著网络和引用网络为例,结合其他种类的学术网络在作者共引网络分析的基础上提出作者混合共引网络,进行精确科学知识图谱的绘制。近几年,共引分析方法还被引入到网络计量中,产生共链分析等方法。岳增慧[50]等选取30种图书情报学期刊及其网站,通过网络收集其共链、共引数据,比较了期刊共链与共引网络在不同结构属性上的异同。

4)共引分析方法的技术研究。共引分析把错综复杂的各研究对象进行梳理、简化,通过聚类方法来直观表示它们之间的关系。错综复杂的分析流程及数量庞大的原始数据集要求共引分析的自动化实现,其中包括对已有计算软件的嵌入,利用相关的统计分析软件、数据分析工具以、可视化工具及科学知识图谱绘制工具等;崔雷[51]利用同被引聚类分析、共词聚类分析和共篇聚类分析的原理来实现根据录入的文献数据形成最终的直观聚类图。胡亮[52]对作者共引可视化系统的设计进行研究,把共引网络以一种直观、清晰的可视化形式显示出来,并提供良好的交互方法,为学者和科研人员提供引文的可视化查询和分析平台。


1.2.3对同类研究的总结

(1)引用位置的划分和赋值尚未形成统一的标准。一是引用位置的划分,包括距篇首的单词数、引用距篇首长度所占百分比以及引用所在的章节等划分方法,太笼统的划分( 如划分为 4 部分) 使得研究变得更容易,但分析深度也相应较浅,太细致的划分则使研究变得相当复杂,分析效果提升却不大,如何根据实际情况来确定合理的划分标准是以后要解决的问题之一。二是引用位置的赋值,有的研究者以1/2为变量(1、1/2、1 /4、1/8……),有的研究者以1为变量(1、2、3、4、8),也未形成统一的标准。由于不同位置的引用重要性不同,如何根据不同位置的引用赋予不同的权值也将是以后要解决的难题之一。

(2)引文聚类算法仍需改进。传统的引文分析将参考文献同等对待,但是在全文数据中参考文献之间的关系有了更多的测度方式。比如,参考文献在全文中的多次共引、参考文献在全文中的共引距离都是有效的测度方式。然而,目前共引距离的权重尚未有统一的赋值标准,需要在引用位置的划分和赋值形成统一标准的基础上进行完善。

    在大多数的共被引分析应用中,人们通常只是单纯使用共被引的频次(即共被引的施引文献篇数)来表示共同被引证的两篇文献的共被引强度,没有考虑到共被引的两篇文献在施引文献中的位置关系,如当两篇文献同时在一篇文章中被引用时,它们出现在文章中的同一句话(句子层次共被引)中或是不同章节(文章层次共被引)中时,这两篇被引文献之间的关系是有所差别的。发生在同一句子中的共被引关系通常要比发生在不同章节中的共被引关系更紧密些。将不同层次的共被引关系相应地设置不同的权重,再对文献进行共被引聚类,有助于增强聚类内部被引文献间的相关性,有效挖掘聚类主题。本研究则从 共被引发生的位置层次出发,提出一种基于共引位置的计算方法,对不同层次的共被引关系进行权重赋值,进而提升聚类效果。

     由于发生在不同位置层次的共被引的两篇文献关系紧密度不同,因而在计算共被引强度时,需要对不同的位置层次赋予不同的权重,这也是位置层次划分的主要目的。虽然有的学者已经尝试对不同位置层次的共被引关系赋予不同权重值,并且不同研究者的共被引权重赋值方法不同,结果却都验证了这种赋值方法的有效性。不过,人们很难判断哪种赋值方法更准确合理。因为他们均认为距离近的共被引文献在原文中的引用主题更接近,因而赋值的基本原则都是赋予距离近的共被引关系较高的权重,而具体的权重值也常是主观经验赋值。事实上,距离更近共被引关系强度更高,确实是我们的常识理解,也符合文章撰写及其语义结构的现实情况。但是不同领域中,共被引位置对共被引强度的影响是有差别的。更重要的是,通过主观判断对共被引权重赋值,缺少合理依据,方法不够准确。对此,本文提出一种基于引用内容相似度的共被引权重赋值方法。

1.3本论文的创新之处

本文对基于共引位置的共引分析进行了探讨,对处于论文中不同位置的共引次数分别赋予了不同的权重,通过样本论文与紧密程度的专家判断之间的回归分析,来得到不同位置的共引次数的样本权重,对得到的样本权重在总体上进行了检验,在通过总体检验的基础上,对得到的权重进行了实证分析,从直观上得到的权重可以提高共引分析结果的合理性与细化程度。

2 统计量与数据准备

2.1 调查对象与统计量的确定

  基于共被引位置的共被引分析是建立在共被引分析的基础上进行的,但是相较于传统的共被引分析,基于共被引位置的共被引分析在统计对象和研究方法上都有所区别。传统的共被引分析是依据共被引次数的大小来研究文献之间的近似紧密程度,共被引文献之间的紧密程度称为共被引强度。在共被引分析当中两篇文献间共被引强度的计算方式是,如果这两篇文献被另一篇文献共同引用,共被引强度就加1,这种计算方式把每一次共被引的紧密程度都认为是同等重要的。基于共被引位置的共被引分析同样是研究文献之间的紧密程度,但是共被引出现的位置不同对共被引强度的影响是有所差异的。共被引分析是把共被引次数作为统计变量,而基于位置的共被引分析需要统计共被引在不同位置的次数。因此统计共被引位置时需要注意以下几个原则:

(1)共被引位置的划分原则

   文献作者出于不同的目的在不同位置进行引用,例如,引言部分的引用一般是介绍研究背景和论文相关主题已有研究,方法部分的引用是对已有方法的证实或修正,结论部分的引用则是强调结果的意义和缺陷。V.Cano在1989年最早将引文位置作为变量进行了文献计量分析,国内外学者就引用位置进行了多方面的研究,以期进一步确定引用位置如何影响引文与施引文献的关系。本文中的引用位置指的是一篇文献被引用时,施引作者在文章中使用这篇文章的具体位置,通常采用施引作者引用参考文献时所使用的参考文献标识(标引)位置来判断引文的引用位置。

  共被引位置有多种统计方式,第一种方式是根据两篇被引文献在施引文献的正文当中标引之间相隔的字符数量来统计,这种方式统计的粒度相对细致一些,但是这种太细致的划分方式,统计起来相对费时费力会使研究变得相当复杂;第二种方式是以标引所在论文的章节来表示位置,学术论文的正文结构一般是四节式论文,第一节是引言、第二节是研究方法和数据、第三节是研究结果,第四节是结论和讨论,如胡志刚等以四节式论文结构为例,将引文位置分为引言、第方法和数据、研究结果,结论和讨论等四类;第三种方式是以论文的结构层次来表示共被引所出现的位置,学术论文的正文可以结构依据文章层次划分为句子、段落、章节和篇,如Gipp Bela和Beel Joran等将共被引分为五种层次,分别是同一句子层次、同一段落层次、同一章节层次、同一期刊、同一期刊的不同版本,Elkiss和刘盛博等将共被引关系划分为4层,分别是句子层次的共被引、段落层次的共被引、章节层次的共被引和文章层次的共被引。

  本文使用上述的第三种方式将共被引划分为五个层次,分别为句子层次、段落层次、小节层次、章节层次和文章层次,其中章节层次是指论文正文的一级标题下的内容,小节层次是指论文正文的二级标题下的内容,例如两篇被引文献同时出现在施引文献的2.1这个二级标题中,那么就是小节层次的共被引关系(被引文献在句子层次和段落层次没有共被引)。

(2)一致性原则(被引文献和施引文献的选择)

共被引位置在论文当中是随机出现的,为了使本文研究得到的共被引位置权重能够更细致的反映总体的情况。本文选择的被引文献都是期刊论文,因此在选择被引文献时需要排除学位论文。同样施引文献同样要避免大量的出现学位论文和图书等篇幅过长的文献,虽然共被引关系是动态结构的,是随着时间变化的,不能保证某一篇论文一定不会被学位论文引用,但是只能尽量剔除施引文献中存在大量学位论文的样本。因为把篇幅较短的期刊论文和篇幅较长的学位论文在一起统计共被引位置,在这样文章篇幅上有巨大差异的共被引位置显然没有可比性的。

排除只在参考文献中出现,无法在正文中找到标引章位置的论文,一些施引文献所列出的参考文献并未在论文正文当中有具体的标引,无法辨别出共被引的位置,如果有一篇以上的施引文献存在未标引的情况,那么施引文献所引用的那两篇被引文献就必须剔除掉。

施引文献的正文结构必须有一致性,施引文献的正文至少存在二级标题,因为作者个人写作风格和偏好的影响,某些论文的正文只有一级标题没有二级标题。本文按照5个层次划分共被引层次,句子层次、段落层次、小节层次、章节层次和文章层次,因此施引文献中必须含义小节,即含义二级标题。这样才能保证统计的论文在文章结构上是一致,具有可比性。

(3)可获取性原则(全文数据库)

  共被引位置信息是处于论文正文当的中,因此在统计共被引位置时,不仅需要获得文献的共被引次数,还需要获得被引文献和施引文献的全文。被引次数、参考文献数量、施引文献数量、论文发表时间等信息是可以从引文数据库中的引文部分(每条索引中)直观的获取,而共被引位置的信息则必须阅读施引文献的正文部分才能获取,因此需要所统计的被引文献和施引文献都有能够获取论文的全文,这个时候就必须选择能够在线阅读或者下载论文全文的全文数据库,如中国知网。

2.2 统计量的数据来源

  本文选择中国知网作为数据来源,为了限定检索出的论文属于同一个学科领域,本文使用中国知网的“高级检索”功能检索情报学领域的期刊论文,具体的检索过程如下:

(1)选择文献的学科分类

  在高级检索的“文献分类目录”中,点击“信息科技”分类左侧的展开按钮,再点击“图书情报与数字图书馆”分类左侧的展开按钮,勾选“情报学、情报工作”这个分类,如图1所示。

    

image.png

图1. “文献分类目录”

 

(2)选择文献的类型

  在“跨库检索”中只勾选“期刊”类型,依据本文统计量的确定原则中的“一致性原则”,被引文献必须都是期刊论文,因此只勾选“期刊”类型,能够限定检索的结果中只有期刊论文,而不勾选硕士和博士学位论文、会议论文等类型。

(3)检索时间范围的确定

  文献的共被引次数是建立在文献被引次数的基础上统计的,只有文献被引次数至少大于1时,这篇文献才会跟其他文献产生共被引关系;在同一个学科领域内的某个研究主题内,两篇文献各自的被引次数越高,这两篇文献的共被引次数才可能会越高;被引次数会随着时间动态变化,根据文献的老化律我们能够发现论文的发表时间越长,被引次数就会达到一个相对稳定的数值。被引次数达到一个稳定值时共被引次数才能达到一个稳定的值,这样共被引次数才会体现出被引文献间真实的关联程度,因此我们使用文献的半衰期作为判断被引次数是否稳定的标准,在情报学领域中文献半衰期是5年,我们把这个时间放大两倍取10年作为文献半衰期,这样我们就要选择10年前发表的期刊论文作为数据来源,也就是在2009年之前发表的期刊论文。最终确定选择2006年-2008年三年间发表的期刊论文。在检索条件中的“发表时间”一栏输入“2006-01-01”到“2008-12-31”这个时间范围。

(4)检索结果的选取

  使用中国知网的“高级检索”,限定文献分类为“情报学、情报工作”、选择发表时间为“2006-01-01到2008-12-31”、跨库选择“期刊”进行检索。得到的检索结果为7957篇期刊论文。对检索结果按照被引次数降序排列,找出被引次数较高的论文。

(5)共被引的统计

  统计文献的共被引分为两个步骤,第一步要找出存在共被引关系的文献对,因为并不是任意两篇被引次数较高的论文之间都存在共被引关系;第二步统计这些共被引文献对的共被引次数,统计共被引次数的前提是能够获取这些共被引文献对的施引文献,那么我们就必须得到每篇论文的施引文献,即发表在被引论文之后对被引论文进行引用的论文,中国知网已经对每篇论文都提供了施引论文的索引,最后我们统计两篇论文的施引文献有多少篇是相同的论文,相同的施引文献数就是这两篇论文的共被引次数。

  在统计共被引次数时我们发现选择任意的两篇论文,他们之间不一定都存在共被引关系。如果我们在统计共被引次数时采取随机抽取两篇论文的方式,再对比这两篇论文的施引文献有多少个相同论文以此统计这两篇论文的共被引次数。我们会发现在实际统计过程中这种统计方式会出现随机抽取的两篇论文之间并不存在共被引关系,那么就会非常的耗费时间和精力,使研究工作量变大。

image.png

图2.中国知网相关截图

这个时候我们就可以借助中国知网的“计量可视化分析”选项下的“已选文献分析”功能可以得知所选文献当中有多少文献对之间存在共被引关系,如图2所示。例如我们在中国知网的检索结果中勾选50篇论文,然后点击“计量可视化分析”选项下的“已选文献分析”这个功能,中国知网会打开一个新的页面叫做“计量可视化-已选文献”,其中就包括“文献共被引分析”,罗列出存在共被引的文献对以及施引文献,最后我们统计每组文献对施引文献的数量就能得到共被引次数。

3.权重的确定

共被引分析是建立在文献之间的关联程度的基础上,通过分析文献之间的距离来得到文献之间的结构关系,但是在衡量两篇论文之间的关联程度时很难得到一个相对准成的值,所以在使用共被引位置进行衡量的基础上,可以引入专家判断的方法来对样本文献对之间的关联程度进行衡量,让该学科领域的专家依据样本论文的实际内容包括论文的研究主题、研究方法、研究过程、研究数据和研究结论,给样本论文的关联程度评分。然后利用相关程度评分和统计的共被引位置数据建立回归方程,进行回归分析,求关联程度在各个共被引位置的权重。

3.1 论文样本的选取

  传统的共被引分析需要统计论文的共被引次数来研究文献之间的共被引强度,而基于位置的共被引分析统计的统计量是建立在共被引次数的基础上,本研究统计共被引位置是以文章的层次结构来划分共被引出现的位置,即依据共被引的两篇文献出现在施引文献当中的位置,将共被引位置划分为5个层次,分别是在同一个句子中的共被引、在同一个段落中的共被引、在同一个小节(论文中的二级标题)下的共被引,在同一个章节(论文中的一级标题)下的共被引,最后一种就是不符合前四种位置分布的共被引,那么这种就是出现在同一篇论文中的共被引。因此在选择样本论文时必须考虑几点要求,使选择样本论文接近于总体的情况。

(1)样本论文来自相同的学科领域

  不同学科的指标数据可能会有一定的差异,因此在采集数据时应保证所采集的数据是在同一学科领域的,从而保障采集到的数据有相同的统计基础,消除因学科领域不同带来的指标值在统计和衡量上的差异。同时交叉学科的论文的被引往往出现于其他学科的期刊和论文,这样文献的共被引相对比较分散和宽泛,不便于进行聚类分析。共被引分析是引文分析的一种研究方法,共被引次数的研究是在被引次数的基础上进行的,不同学科领域论文的被引次数、共被引次数、文献半衰期都有所不同,因此不同学科领域文献的共被引强度也是不同的,为了避免这些差异的干扰,本文选取来自同一个学科领域的论文,也就是选择情报学领域的论文作为样本。

(2)共被引次数的涵盖性

  共被引次数的大小在不同学科领域中是不一样的,在同一学科领域内文献之间的共被引次数也是有差别的,一些文献的共被引次数非常高,能够有20多次的共被引次数,而某些文献的共被引次数相对较低,只有1次或2次共被引次数,还存在许多文献之间没有共被引次数的情况。因此在选择样本时,要对共被引次数高的和共被引次数低的文献都要进行考察,如果仅仅选择了共被引次数高的文献作为研究样本,不能较好的反映总体的情况,因为马太效应的存在,毕竟共被引次数高的论文是在总体中所占的数量是相对较少的,相当一部分文献之间的共被引次数是比较低的,简单的说就是共被引次数高的文献较少,而共被引次数低的论文较多。根据情报学学科的共被引次数的分布情况,本文样本论文的共被引次数的统计区间在18至1次之间。

编号

被引论文

A

姜春林;刘则渊;梁永霞.H指数和G指数——期刊学术影响力评价的新指标.图书情报工作.2006

B

郑惠伶.运用h-指数评价期刊影响力——以图书馆学情报学期刊为例.情报科学.2008

C

王建芳;冷伏海. 共引分析理论与实践进展. 中国图书馆学报. 2006

D

冯璐;冷伏海. 共词分析方法理论进展. 中国图书馆学报. 2006

E

胡德华;常小婉.开放存取期刊论文质量和影响力的评价研究.图书情报工作.2008

F

刘海霞;方平;胡德华.开放存取期刊的质量评价研究.图书馆杂志.2006


………

表1.被引论文的编号

序号

共被引文献对

共被引次数

1

AB

18

5

2

2

5

4

2

CD

16

1

2

6

3

4

3

EF

13

4

5

1

3

0




………





表2.每对样本在各个位置的共被引次数

 

(3)论文发表时间超过文献的半衰期

  共被引次数的研究是在被引次数的基础上进行的,只有达到甚至远远超过文献的半衰期,文献的被引次数取值才会变得相对稳定。普赖斯提出的文献老化律指出,在论文发表后的第二年其被引用次数一般会达到峰值,若图书情报学科的文献也符合此规律,结合《2016年版中国科技期刊引证报告(扩刊版)》中有关期刊中论文引证情况的统计数据,图书情报领域期刊被引半衰期则一般为3-5年,考虑到文献半衰期,为了保证采集的样本数据的全面性和准确性,本文将“数字图书馆”主题的文献半衰期扩大两倍至10年,统计的数据时间选择在2000年和2008年间发表的期刊论文

(4)样本的分布服从布拉德福定律

布拉德福通过观察统计分析论文在科学期刊中的分布规律发现,如果将科学期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成的关系。唐素贞研究发现被引次数文献同样符合布拉德福定律的特点。在同一个学科中的论文,高被引论文往往只占很少的一部分,还有相当一部分论文的被引次数是中等水平,剩下的一大部分的论文的被引次数相对较低,虽然统计共被引次数时,需要找到那些共被引的论文,然后两两配对的方法统计共被引次数,但是共被引次数也有类似被引次数的分布规律,共被引次数较高的论文占少数,大部分论文的共被引次数相对较低。因此在统计共被引次数是,需要考虑到这种实际情况,高共被引次数和低共被引次数的论文都需要。因此在统计样本数据时,不能只统计高共被引次数的文献对,统计的数据要符合布拉德福定律,简单的说高共被引次数的文献对和低共被引次数的文献对都需要统计,两者在样本当中的占比为高共被引次数的文献对较少而低共被引次数的文献对较多。

为了方便统计和计算,我们使用大写英文字母来代表各个被引论文,如表1所示如表2所示,是我们统计的共被引次数在不同位置上的分布,我们使用英文的大小字母组合来表示共被引文献对,其中每对样本在各个位置的共被引次数之和等于每对样本的共被引次数。


3.2 样本关联程度的专家判断

  论文之间的实际关联程度是很难量化的,甚至可以说在判断时所要判定的评价要素本身也是不容易准确判定的。因此,在判断论文的关联程度时,使用专家判断的方法能够很好的减小相关程度量化过程的困难,且具有较高的可实施性。邀请调查对象所属学科领域的专家,依据样本论文的实际内容并结合专家自身的专业知识,让专家阅读论文之后对论文的相关程度做出判断,再以打分的方式给出论文相关程度的分值。可以向多位专家发放样本论文,并将样本指标值、评分标准、等相关论文的资料发给各位专家,请专家独立评判每对论文的关联程度的分值。专家判断的优越性在于所参加评价的专家在其专业领域具有较高的学术水平和丰富的阅历与实践经验,具有较强的说服力,当参与评判的专家数量足够多时,就能得到更准确的判断值。

  根据心理学的观点,在划定评分分值区间时,如果分值区间过大,就会超越人们的判断能力,这样既增加了做出判断的难度,又容易因此而提供虚假的数据。Saaty等人用实验方法比较了在各种不同的标度下人们判断结果的正确性,根据实验结果显示,采用1-10分的分值区间是最为合适的。根据上述选定的分值区间,在判断样本论文间的关联程度时,专家所给出的分值是在1-10分的区间内


CO

X1

X2

X3

X4

X5

Value

C1

18

5

2

2

5

4

7.9

C2

17

0

3

1

5

8

4.2

C3

16

1

2

6

3

4

6.3

C4

14

10

3

0

0

1

8.7

C5

13

4

5

1

3

0

8.5

C6

13

6

1

2

4

0

6.9

C7

11

0

6

0

2

3

6.7

C8

10

2

0

0

2

6

7.2

C9

10

3

1

0

2

4

6.1

C10

9

0

0

4

1

4

7.1

C11

8

0

0

0

3

5

5.2

C12

7

0

1

1

2

3

6.9

C13

7

0

1

2

0

4

7.1

C14

6

1

1

3

0

1

6.5

C15

6

0

0

3

0

3

7.2

C16

6

1

0

4

0

1

7.6

C17

5

0

0

3

0

2

5.2

C18

5

1

0

0

1

3

5.8

C19

5

0

2

1

0

2

6.2

C20

4

0

1

0

0

3

4.6

C21

4

4

0

0

0

0

4.8

C22

4

2

0

1

0

1

8.2

C23

4

0

1

2

0

1

6.3

C24

3

3

0

0

0

0

5.2

C25

3

0

0

1

0

2

4.3

C26

3

0

0

1

2

0

5.7

C27

3

0

0

1

0

2

4.1

C28

2

0

0

0

0

2

3.4

C29

2

0

1

0

0

1

4.3

C30

2

0

0

1

0

1

4.8

C31

2

0

0

1

0

1

5.2

C32

2

0

0

0

1

1

4.2

C33

2

0

0

0

2

0

6.6

C34

2

0

0

0

1

1

5.6

C35

1

0

0

0

0

1

3.7

C36

1

0

0

0

1

0

4.2

C37

1

0

0

0

0

1

3.3

C38

1

0

0

1

0

0

4.6

C39

1

0

0

0

1

0

3.8

C40

1

0

0

0

0

1

3.6

表3.样本关联程度的专家判断分值

连续分布,分值精确到小数点后一位,这样我们得到的分值是连续型的变量,能够减小使用离散型的变量所造成的误差。其中,分数越高论文间的关联程度就越大,反之,分数越小论文间的关联程度就越小。

  如表3所示,该表是根据专家判断所得到的论文关联程度的分数,此表有7个变量,分别用COX1X2X3X4X5Value,其含义分别是共被引次数、句子层次的共被引次数、段落层次的共被引次数、小节层次的共被引次数、章节层次的共被引次数、文章层次的共被引次数以及专家判断的分数,表的第一列表示共被引论文对的编号。

3.3 回归分析

    我们将每对文献的共被引次数在各个位置上的分布作为自变量与专家对每对文献的相关程度打分作为因变量进行回归分析。首先我们建立回归方程,然后求出回归方程中的各个参数的估计值,我们就可以对不同变量的文献对的关联程度进行估计。

  回归分析是处理变量间相关关系的一种统计方法。回归分析法指在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式,即回归方程。

回归分析法是通过研究研究两个或两个以上变量的相关关系对未来进行预测的一种数学方法。回归分析主要解决以下几个方面的问题:一是从一组样本数据出发,确定变量之间的数学关系;二是对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的;三是利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。回归分析的基本步骤如下:一是根据自变量与因变量的现有数据以及关系,初步设定回归方程;二是求出合理的回归系数;三是进行相关性检验,确定相关系数;四是在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状态,并计算预测值的置信区间。根据变量之间的因果关系,回归分析可以分别不同的类型,如一元回归模型、多元回归模型、线性回归模型、非线性回归模型、普通回归模型、虚拟变量回归模型等。

      参数的最小二乘估计,称为最小二乘法。对于因变量x和自变量yn对观察值,可以画出多条直线描述因变量x和自变量y的直线趋势关系,但最理想的是最接近观测值的那条直线。估计回归系数,实质是找一条拟合直线,使样本观测点值尽可能地靠近该条直线,最小二乘法使样本的观察值image.png与回归模型的估计值image.png之间的残差平方和达到最小来,并通过平方和运算避免正负残差相抵消的情况,据此来对回归系数进行估计。

    根据样本统计量的数量,我们需要使用多元线性回归分析,多元线性回归分析是研究一个变量与一组变量的依存关系,即研究一组变量是如何直接影响一个因变量的。多元线性回归试图通过拟合线性方程给多个解释变量(自变量)与一个响应变量(因变量)之间的关系建立模型,从而观察数据。每个因变量的值都和一个自变量的值相关。依据样本,我们将每对样本的共被引次数在各个位置上的分布作为自变量image.png和每对样本关联程度的专家打分作为因变量y,设因变量y与自变量 image.png有线性关系,通过使用观察得到的n组数据,

image.png

则他们之间的线性关系,可以建立回归方程如下,

image.png

其中image.png表示第i组样本的关联程度专家打分的分值,image.png表示第i组样本文献对分别在句子层次、段落层次、小节层次、章节层次和文章层次这5位置的共被引次数,X1,X2,X3,X4,X5表示句子层次、段落层次、小节层次、章节层次和文章层次这5位置的共被引权重。

3.4 参数估计

  参数估计是以样本统计量作为未知总体参数的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值,将其作为被估计参数的估计值。

  回归方程中的参数image.png是未知的,需要利用样本数据去估计他们。当用样本统计量 image.png去估计时回归方程中的未知参数image.png,就得到了估计的多元回归方程的模型,

image.png

其中image.png是参数image.png的估计值;image.png是因变量image.png的估计值。

  我们可以利用最小二乘法计算多元线性回归模型中的参数image.png。其目的是选择参数image.png,使因变量image.png的实际观测值与由公式得到的回归估计值image.png的残差平方和最小。

估计值image.png与实际观测值image.png之差为,

image.png


Q为全部的回归值image.png与实际观测值image.png之间存在总残差平方和,使Q达到最小值。残差平方和函数为,

image.png

最小二乘法要求估计值image.png满足,

image.png

由于 image.pngimage.png的非负二次型,故其最小值一定存在。根据多元微积分的极值原理可知,为使image.png的值达到最小,可分别对image.png分别求一阶偏导数,并令其等于0;整理得正规方程组,求解出参数image.png的估计值。

    在实际计算中,多元线性回归所涉及的数据量较大,相关分析和计算较复杂,因此我们利用SAS软件中的多元线性回归分析来实现对参数的估计。SASStatistical Analysis System)是一个模块化、集成化的大型应用软件系统。它由数十个专业模块构成,功能包括数据访问、数据存储及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等。我们利用SAS软件中的线性回归模块,得到参数的估计值。将40对样本的共被引次数在不同位置的分布作为自变量,每对样本关联程度的专家打分作为因变量输入SAS软件。利用SAS软件中的线性回归模块,得到参数的估计值。最后我们求解出参数X1=X2=X3=0.675X4=X5=0.617。也就得到了各个位置的共被引权重,句子层次、段落层次和小节层次的共被引权重都是0.675,章节层次和文章层次的共被引权重都是0.617



参考文献

[1]Small.H.G.Co-Citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973(24):265~269

[2]Marshoakova IV. System of document connections based on references[J].1973.Scientific and Technical Information Serial of VINITI, 1973,6(2):

[3]Small.H.G.Macro-Level Changes in the Structure of Co-Citation Clusters:1983~1989[J].Scientometrics,1993,26(l):5~20

[4]Small.H.G,Sweeney.E.Clustering the Science Citation Index Using Co-Citations:I.A Comparison of Methods[J].Scientometrics,1985(7):391~409

[5]Smal.H.G.A SCI-Map Case Study:Building a map of AIDS research[J].Scientometrics,1994,30(l):229~241

[6]Small H, Greenlee E. Collagen research in the 1970s[J]. Scientometrics, 1986, 10(1-2):95-117.

[7]White.H.D,Griffith.B.C.Author Co-Citation:A Literature Measure of Intellectual Structure[J].Journal of the American Society for Information Sciences,1981(32):163~171

[8]White.H.D,McCain.K.W.Bibliormetrics[J].Annual Review of Information Science and Technology,1989(24):119~186

[9]White.H.D,McCain.K.W.Visualizing a Discipline:An Author Co-Citation Analysis of Information Science,1972~1995[J].Journal of the American Society of Information Science,1998,49(4):327~356

[10]Dangzhi Zhao.Towards All Author Co-Citation Analysis[J].Information Processing and Management,2006(42):1578~1591

[11]White.H.D,Griffith.B.C.Author as Markers of Intellectual Space Co-Citation in Studies of Science[J].Technology and Society,1982(38):255~272

[12]Mccain K W,Verner J M, Hislop G W,et al.The use of bibliometric and knowledge elicitation techniques to map a knowledge domain: Software Engineering in the 1990s[J]. Scientometrics,

2005,65 ( 1) : 131-144.

[13]McCain.K.W.Mapping Economics through the Journal Literature:An Experiment in Journal Co-Citation Analysis[J].Journal of the American Society for Information Science,1991(42):290~296

[14]Ming-Yuch Tsay,HongXu,Ghia-Wen Wu.Journal Co-Citation Analysis of Semiconductor Literature[J].Scientometrics,2003,57(l):7~25

[15]Zao Liu.Visualizing the Intellectual Structure in Urban Studies:A Journal Co-Citation Analysis(1992~2002)[J].2005,62(3):385~02

[16]Boyack K W,Klavans R.Co-citation analysis,bibliographic coupling,and direct citation: Which citation approach represents theresearch front most accurately[J]. Journal of the American Society for Information Science and Technology,2010,61(12):2389-2404.

[17]Liu X H, Yu S, Janssens F, et al. Weighted hybrid clustering by

combining text mining and bibliometrics on a large-scale journal

database[J].Journal of the American Society for Information

Science and Technology,2010,61( 6) : 1105-1119.

[18]Elkiss A, Shen S, Fader A, et al. Blind men and elephants: What do citation summaries tell us about a research article?[J]. Journal of the American Society for Information Science & Technology, 2008, 59(1):51-62.

[19]Gipp B, Beel J. Identifying related Documents for Research Paper Recommender by CPA and COA[J]. Lecture Notes in Engineering & Computer Science, 2009, 2178(1).

[20]Liu S, Chen C. The proximity of co-citation[J]. Scientometrics, 2012, 91(2):495-511.

[21]Boyack K W, Small H, Klavans R. Improving the accuracy of co-citation clustering using full text[J]. Journal of the American Society for Information Science & Technology, 2013, 64(9):1759–1767.

[22]Callahan A, Hockema S, Eysenbach G. Contextual cocitation: Augmenting cocitation analysis and its applications[J]. Journal of the American Society for Information Science & Technology, 2010, 61(6):1130–1143.

[23]Eto M. Evaluations of context-based co-citation searching[J]. Scientometrics, 2013, 94(2):651-673.

[24]赵党志.共引分析——研究学科及其文献结构和特点的一种有效方法[J].情报杂志,1993(02):36-42+79.

[25]赵党志.期刊共引分析——研究学科及其期刊结构和特点的一种方法[J].中国科技期刊研究,1993,4(01):55-58.

[26]邱均平, 秦鹏飞. 基于作者共被引分析方法的知识图谱实证研究——以国内制浆造纸领域为例[J]. 情报理论与实践, 2010(10):53-56.

[27]邱均平, 周毅. 基于作者共被引的馆藏资源深度聚合模式与服务探析——以CSSCI中图书情报领域本体研究为例[J]. 图书情报工作, 2014, 58(7):19-24.

[28]杨利军, 张良友. 期刊共被引相似性测度问题的实证研究[J]. 图书情报工作, 2010, 54(18):139-144..

[29]赵勇.期刊共引分析及可视化实证研究——以图书情报学研究为例[J].图书与情报,2009(03):89-94.

[30]王建芳, 冷伏海. 共引分析理论与实践进展[J]. 中国图书馆学报, 2006, 32(1):85-88.

[31]耿海英,肖仙桃.国外共引分析研究进展及发展趋势[J]. 情报杂志, 2006, 25(12):68-69.

[32]耿海英. 共引分析方法及其应用研究[D]. 中国科学院文献情报中心, 2007.

[33]苑彬成, 方曙, 刘合艳. 作者共被引分析方法进展研究[J]. 图书情报工作, 2009, 53(22):80-84.

[34]王玲玉. 国内共引研究的现状分析[J]. 情报杂志, 2011(8):61-65.

[35]朱亮, 孟宪学, 赵瑞雪,等. 国内外共引分析研究现状探析[J]. 数字图书馆论坛, 2015(4):40-45.

[36]步一, 刘天祎, 赵丹群,等. 国外作者共引分析研究评述[J]. 情报杂志, 2015(12):48-53.

[37]张云, 华薇娜, 袁顺波. WoS中共被引聚类研究的计量与分析[J].情报杂志, 2016, 35(9):152-157.

[38]刘盛博, 张春博, 丁堃,等. 基于引用内容与位置的共被引分析改进研究[J]. 情报学报, 2013, 32(12):1248-1256.

[39]赵蓉英, 郭凤娇, 曾宪琴. 基于位置的共被引分析实证研究[J]. 情报学报, 2016, 35(5):492-500.

[40]王贤文, 刘则渊, 美国. 基于共被引率分析的期刊分类研究[J]. 科研管理, 2009, 30(5):187-195.

[41]杨利军, 张良友. 期刊共被引矩阵对角线问题的实证研究[J]. 图书情报工作, 2010, 54(4):144-148.

[42]刘超, 李秀霞, 李林,等. 基于互引和共被引的期刊关联分析比较[J]. 情报科学, 2017(7):96-100.

[43]朱云霞. 基于合著与共引关系的学者关联度模型及实证研究[J]. 图书情报工作, 2015, 59(22):97-104.

[44]秦长江. 两种方法构建的作者共引知识图谱的比较研究[J]. 情报科学, 2010(10):1558-1564.

[45]李秀霞, 邵作运. 融入内容信息的作者共被引分析——以学科服务研究主题为例[J]. 图书情报工作, 2016(1):98-104.

[46]步一, 刘天祎, 黄文彬. 优化传统作者共引分析的研究初探——综合引文发表时间信息的作者共引分析方法[J]. 图书情报知识, 2015(6):89-97.

[47]黄文彬, 王冰璐, 步一,等. 结合时间切片信息的作者共引分析方法与实证[J]. 图书情报工作, 2017, 61(16):135-142.

[48]黄文彬, 步一, 王冰璐. 作者共引分析方法的扩展与效能改进研究[J]. 图书情报知识, 2017(2):75-82.

[49]黄文彬, 蒙汪阳, 步一. 作者混合共引网络对知识图谱绘制的改进研究[J]. 图书情报工作, 2017(3):118-124.

[50]岳增慧, 方曙. 基于共链与共引关系的期刊结构特征比较研究[J]. 图书情报知识, 2013(5):72-81.

[51]崔雷,胡海荣.文献计量学共引分析系

[52]胡亮. 实时文献作者共引可视化系统研究[D].天津大学,2009.






https://blog.sciencenet.cn/blog-3405714-1193748.html


收藏 IP: 117.136.44.*| 热度|

1 刘炜

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 14:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部