崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

一个文献分析的软件:Bibexcel

已有 77054 次阅读 2009-11-16 11:04 |个人分类:生物医学文献计量学|系统分类:科研笔记| 工具, 软件, Bibexcel, 文学计量学

把自己开发的文献共现矩阵生成软件叫做BICOMS,在给研究生上选修课《文本挖掘在科研选题中应用》的时候试用,同学们总是问我,我们没有软件,课程结束后怎么办?其实我也没有想好这个软件将来怎么使用:是收费?还是全免费?还是开发网络版?还是注册后可以免费下载?

忽然有一位同事告诉我网上也有一个免费使用的文献计量分析的软件,免费下载。拿来用一用,功能和我的差不多,总归不是自己开发的,用起来还是不顺手。但是,英文说明书看过了,顺手就翻译过来了。把它上传到了CSDN的下载频道上了,竟然如石沉大海。所以就在这里再发一个吧:)

利用Bibexcel进行文献计量分析和引文分析快速指南

Alan Pilkington  a.pilkington@rhul.ac.uk

概述与安装

本人使用Bibexcel业已多年,一直向大家推荐这个工具。但是,总是被人们问及如何上手使用,每次拿它进行分析的时候,总是要回头再次读一读自己手写的笔记。所以,我感到有必要就如何利用Bibexcel进行文献计量分析写出一个介绍性的东西,希望能给大家提供有用的信息。如果有任何建议或者发现任何错误,请通知我。

Bibexcel是一个用于文献计量分析、特别是引文分析的完美工具。用户可以在www.umu.se/inforsk网站上获得最新版本。其安装也十分简单,只需要把文件拷贝到硬盘的目录下即可,记住要把帮助文档也放在一个目录下。如果本指南不能满足你的需求请到该网站上浏览网页。

利用Bibexcel进行引文分析

第一步要有用于分析的来源数据。在引文分析中,来源数据就是从《科学引文索引》、《社会科学引文索引》中检索到来源文献。这两个数据库是商业数据库,是Web of Science或者ISI数据服务的组成部分,你所在的大学可能已经订购了它们。

《科学引文索引》和《社会科学引文索引》的使用

和平时一样,使用WOS/ISI检索功能检索到来源文献。在开始下载文献之前,必须了解你研究的内容。如果是对一种期刊的文章内容进行分析,其来源文献很容易确认下来。比较复杂的研究有可能是针对某一作者或者大学的某个系的文献记录。无论你的计划是什么,如果你是要从《科学引文索引》和《社会科学引文索引》中下载数据,下载和准备数据的步骤都是一样的:

WOS,下载前需要对要下载的记录进行标记。然后开始下载所选择的论文,保证下载项目中包括论文的引文。可以通过“download for future analysis(为进一步分析而下载)”或者通过电子邮件发给自己,两种方式都生成纯文本文件。

如果下载的文献记录过多,下载中有的时候会导致数据传输超时。可以打开已经得到的文件查看(可以用Bibexcel中左上角的窗口找到文件,在左下角的窗口中可以看到文件的内容,也可以使用文本编辑器),找到文件的最后几行,看看是否存在HTML格式错误,如果有错误就表明下载中出现了超时。如果出现超时,解决的办法只有重新下载并注意减少下载记录的数量,比如减少检索的年限。如果是分段下载的,必须记住,在下一步分析之前,要把分离的文件重新组合到一起。用文本编辑器(如记事本)打开这些文件,剪切和粘贴,要保证在合成的文件的顶部只有一个文件头,而不是在已下载的每一个部分的开头:

FN ISI Export Format

VR 1.0

利用文本编辑器可以很容易查看纯文本中的数据,但是在使用诸如MS word之类的字处理器时候要当心,因为它们会增加字符、重新定义过的行格式和其他可以在后来引起问题的东西。

需要注意观察的是unixWindows的行末尾和换行是不同的,而Bibexcel是采用Windows格式,所以需要在Bibexcel中打开来源文件(在左上区域)然后观察文件是否只含有一行文字(在右下角)而不是整整齐齐的文字块,这时你需要把换行改为Windows格式。利用"editpad lite"完成这项工作,该软件可以在JGSoft上免费下载。

为了进一步准备和分析,在Bibexcel或者文本编辑器中打开的原始数据文件应该是下面这个样子:

FN ISI Export Format

VR 1.0

PT Journal

AU Brown, S

Blackmon, K

TI Aligning manufacturing strategy and business-level competitive

strategy in new competitive environments: The case for

strategic resonance

SO JOURNAL OF MANAGEMENT STUDIES

NR 190

CR 1998, IND WEEK 1207, V247, P22

YOUNDT MA, 1996, ACAD MANAGE J, V39, P836

ZAJAC EJ, 2000, STRATEGIC MANAGE J, V21, P429

ZAJAC EJ, 1989, STRATEGIC MANAGE J, V10, P413

BP 793

EP 815

PG 23

JI J. Manage. Stud.

PY 2005

PD JUN

VL 42

IS 4

GA 929TJ

J9 J MANAGE STUD-OXFORD

UT ISI:000229369000004

ER

PT Journal

AU Brown, S

Cousins, PD

TI Supply and operations: Parallel paths and integrated strategies

SO BRITISH JOURNAL OF MANAGEMENT

NR 105

CR ANDERSON JC, 1991, INT J OPER PROD MAN, V11, P86

BADRI MA, 2000, OMEGA, V2, P155

BEACH R, 2000, INT J OPER PROD MAN, V20, P7

WOMACK J, 1996, LEAN THINKING

WOMACK J, 1990, MACHINE CHANGED WORL

ZAIRI M, 1992, INT J OPER PROD MAN, V12, P34

BP 303

EP 320

PG 18

JI BRIT. J. MANAGE.

PY 2004

PD DEC

VL 15

IS 4

GA 874LZ

J9 BRIT J MANAGE

UT ISI:000225353200002

ER

PT Journal

AU Laycock, M

TI Transforming Rover, renewal against the odds 1981-1994 -

Pilkington,A

SO LONG RANGE PLANNING

NR 1

CR PILKINGTON A, 1994, T ROVER RENEWAL ODDS

BP 738

EP 739

PG 2

JI Long Range Plan.

PY 1996

PD OCT

VL 29

IS 5

GA VW288

J9 LONG RANGE PLANN

UT ISI:A1996VW28800021

ER

现在,你可以开始使用Bibexcel...

开始分析

Bibexcel 因其灵活性而十分强大,但过于灵活会在刚开始使用的时候会带来一点点困惑,有的时候好几件事情通过一个步骤就完成了,有的时候需要把几种不同数据集结合在一起来处理文件。使用Bibexcel过程中需要帮助的时候可以按F1获得帮助,但是这个帮助往往是面向比较熟练的用户,老用户明确自己要做什么因而需要略加指点后在Bibexcel下完成的任务。幸运的是还有一些笔记来填充教程和快速指南留下的空缺。

首先,确定要分析的数据。按照上述步骤已经下载了文本文件中,有一个字段标识符为CR(或者CD)表示引文(在下载来源文献记录时,你需要明确指出要下载引文),因为这是文献计量学最关注的内容,很多分析会使用到这个数据,但是你也可以利用软件分析其他感兴趣的字段。

转换到Dialog格式

为了把你的数据转换成Bibexcel可以处理的格式,需要对数据做进一步的准备。这方面内容在Bibexcel的帮助文件中有很多介绍,运行Bibexcel时按下F1进入帮助系统,查询索引和条目,如下载、转换到dialog和数据准备(downloading, convert to dialog, preparing the data)。在阅读分析步骤之前阅读介绍部分有益无害。

简短地说,准备数据包括如下步骤:

首先,检查文件是否是Windows格式的结尾(如前所述)。

为了进行转换,利用Bibexcel左上角的窗口来导航来查看从SCI中获得的数据,这些数据将在右侧标有“the list”的窗口上出现。在Bibexcel 一般使用左上角的窗口来选择要处理的文件,在菜单中选择一个项目来执行任务,或者点击start/prep按钮中的一个。

让你的数据变成Bibexcel的正确格式的第一步是选择好你的数据文件然后点击“Misc/ Converttodialog/ convertfromWebofScience”菜单。

如果没有这样处理过文件,则需要通过在左上角选择原始数据(使用view file查看文件按钮来检查),然后利用菜单命令:Misc/Converttodialog/ convertfromWebofScience。最后会得到一个.doc文件(与你原始文件同文件名,只不过是以.doc结尾)。

在抽取出你要进一步分析的字段之前,选择和查看这个文件,比如在每一行的开头是否有完好的标签(PT-, AU-, SO-, CD-, PY-等),这些标签表明记录的内容,是否有干净的行结束标识“|”和记录结束标志“ER ||”。注意Bibexcel如何把分号作为的字段中多个条目的分隔符,比如作者和引文。这些分隔符会有助于以后分析中把各个条目分割开来。

PT- Journal|

AU- Brown S; Blackmon K|

TI- Aligning manufacturing strategy and business-level competitive strategy in new competitive

environments: The case for strategic resonance|

SO- JOURNAL OF MANAGEMENT STUDIES|

NR- 190|

CD- 1998, IND WEEK 1207, P22, V247; 1998, IND WEEK 1207, P24, V247; ADLER PS, 1990,

P55, CALIFORNIA MANAG SPR; ANDERSON J, 1991, V1, P86, INT J PRODUCTION OPE; ZAJAC

EJ, 2000, V21, P429, STRATEGIC MANAGE J; ZAJAC EJ, 1989, V10, P413, STRATEGIC MANAGE

J|BP- 793|

EP- 815|

PG- 23|

JI- J. Manage. Stud|

PY- 2005|

PD- JUN|

VL- 42|

IS- 4|

GA- 929TJ|

J9- J MANAGE STUD-OXFORD|

JN- JOURNAL OF MANAGEMENT STUDIES, 2005, V42, N4, P793-815|

UT- ISI:000229369000004 ER ||

简单抽取字段

查看.doc文件的时候,你会注意到有一个叫做TI-的字段(表示标题,其他的如AU表示作者,PY标识出版年,CR或者CD标识引文等)每一个字段都可以抽取出来形成一个文件用于进一步分析。

例如,如果要分析论文的标题词,可以当作寻找将不同论文联系到一起的关键词,最常用的单词是什么?

这个时候,需要抽取出TI-字段的内容,通过选择.doc文件(如前面查看文件时候的步骤)开始,将(TI)标签放到old tag(旧标签)框内(左下角),从中间上部的PREP旁边的下拉菜单选择正确的数据格式(blank separated field to treat each word alone,字段由空格分隔使每一个单词独立计数),然后按下PREP按钮来执行操作,产生一个新的.out文件,这个.out文件用于进一步分析,按下F1查看进一步操作这些数据的帮助内容。利用左上角的框来查看.out文件,注意所需要的单词是如何保留下来的,还有对标题中含有这些单词的来源文献的链接(第一列中的数字),这个程序功能强大的原因之一——可以很容易地查看不同来源论文之间的链接。下面是一个title.out文件的例子(第一列的数字表示来源文献):

1 Aligning

1 manufacturing

1 strategy

1 business-level

1 competitive

1 strategy

1 case

1 strategic

1 resonance

2 Supply

2 operations

2 Parallel

2 paths

2 integrated

2 strategies

3 conceptual

3 synergy

3 model

3 strategy

3 formlation

3 manufacturing

4 Technology

4 portfolio

4 alignment

4 commercialisation

4 investigation

4 fuel

4 cell

4 patenting

你还可以用来自其他数据源(如数据库或者excel)生成自己的.out文件,然后用Bibexcel执行下面分析步骤。只要保证是同一格式并且是纯文本。

基本分析

通过在选择和查看文件(屏幕左上角)产生了.out文件中(如果升级了可能叫做.oux)项目的频次,然后用左边中间的窗口中使用“whole string, sort descending, start”生成一个.citcitation)频次文件。现在,我们就可以打开.cit文件查看哪些词在来源论文的标题中出现最多。我现在使用的文件显示出“manufacturing”出现了9次,然后是strategystrategic:

9 manufacturing

8 strategy

6 Strategic

4 management

3 operations

3 competitive

3 investigation

2 learning

2 Literature

2 relationships

2 links

引文分析

文献计量学中最为常用的方法之一就是引文分析,而Bibexcel使得数据获取的步骤以及分析都相对容易。最大的问题往往是从原始数据中仅仅抽取出部分所需要的引文信息。

第一步是从.doc文件中抽取全部引文信息,所以要重复上述步骤只是在“old tag box”窗口中用CD标签并且选择“any ; separated field”,产生.out文件,文件中列出每一条引文及其来源文献号:

1 ADLER PS, 1990, P55, CALIFORNIA MANAG SPR

1 ANDERSON J, 1991, V1, P86, INT J PRODUCTION OPE

1 ANDREWS KR, 1971, CONCEPT CORPORATE ST

1 ANSOFF HI, 1965, CORPORATE STRATEGY A

1 PILKINGTON A, 1998, V41, P31, CALIF MANAGE REV

1 ZAJAC EJ, 2000, V21, P429, STRATEGIC MANAGE J

2 BEACH R, 2000, V20, P7, INT J OPER PROD MAN

2 BESSANT J, 2003, V23, P167, INT J OPER PROD MAN

2 BRAGLIA M, 2000, V28, P195, OMEGA-INT J MANAGE S

一般用户都愿意对全引文格式进行分析,但是最好是抽出来按照作者+标题分别进行分析,还可以在使用author.title和年代进行分析之前对数据进行清洗(例如对一种缩写进行标准化)。

如果想要在.out文件中抽出作者,首先查看.out文件,在左面中部的面板上选择被引作者,选择去掉重复和生成新的.out文件,按下start开始按钮,生成一个.oux文件,仅仅列出作者(或者至少是应该在作者字段位置上的条目,如果文件格式正确的话)

1 ADLER PS

1 ANDERSON J

1 ANDREWS KR

1 ANSOFF HI

1 BAHRAMI H

1 BAIN JS

1 BARNEY J

1 BARNEY JB

1 BATES KA

1 BEACH R

1 BERRY WL

1 BESSANT J

1 BOEKER W

2 COUSINS PD

2 CROSBY P

2 DANGAYACH GS

2 DSOUZA DE

2 DURAY R

2 DYER JH

2 ELLRAM L

2 ELLRAM LM

2 FARMER D

2 FEITZINGER E

2 FLYNN BB

3 GRANT RM

3 HAKSEVER C

3 HAMMER M

3 HART SL

3 HAX AC

3 HAYES RH

3 HENDERSON JC

3 HEWLETT CA

用户可能希望在进一步分析之前用excel或者其他软件来去掉第二个首字母缩写,使得数据更加规范。我一般愿意使用excel的“分列”菜单把姓和名字首字母缩写分开,然后用LEFT功能把第一个首字母缩写提出来然后与名字CONCATENATE  (串联)在一起。这样一来,用文本编辑器或者excel可以把这些数据一起放到与Bibexcel.out/.oux兼容的同一个纯文本格式的文件中。

这样你就可以对其进行频数统计生成.cit文件,如此一来可以发现高被引作者:

27 PILKINGTON A

11 HAYES RH

11 SKINNER W

9 HILL T

7 PRAHALAD CK

6 LEONG GK

6 MINTZBERG H

6 PORTER ME

6 STALK G

6 SWINK M

6 VOSS CA

6 BARNEY J

6 WOMACK J

6 HAYES R

.out文件还可以采用同样的步骤来抽取其他元素,比如出版物的标题,甚至一些元素的组合。Bibexcel利用SCI中的条目格式来辨认所要抽取的部分,所以如果想要期刊条目,你只需要获得那些带有有效的卷标和页码信息的条目,这些工具小心使用,因为在SCI中的数据经常出现格式不正确的情况。

共现和网络

了解了来源文献或者引文中的各个字段的频数之后,一种有意义的探索是了解引文或者字词之间的关系和网络/地图。这种探索在Bibexcel中叫做共现,在帮助文件的生成矩阵部分有介绍。

可以用你需要的任何数据建立共现矩阵,比较有意义的共现包括标题词、作者、期刊名或者项目的组合,比如用“作者、期刊、年代”来确认某一篇论文。我经常手工制作一个.out样的文件输入给Bibexcel,分析来自不同数据库的专利数据的共现。

共现分析中必要的步骤包括生成一个含有频数的.cit文件,有助于选择分析的项目,然后使用这个索引来分析.out/.oux文件,在.coc文件中生成共现数据。然后这个文件可以转换成为类似excel四格表的矩阵,其中单元格的数字是行和列标题的频数。

在进行这种分析的时候,我们往往只是关心引文之间的关系是否存在而不是一篇论文是否有很多引文,所以一般最好采取额外的步骤来去掉重复的条目。可以使用中间左边的框,对.out或者.oux去掉重复标识,生成一个新的文件。

为了生成共现或.out文件,首先查看.cit文件,然后选择你要分析的单词/作者/标题/引文字串(在主窗口中涂蓝)。在.cit文件中把要分析的条目加亮之后,按照“Analyse: Coocurrance: slectunits via list box”操作:仅仅获得在“the list”窗口中的项目。然后,在左上角中选择你的.out文件(不要查看该文件,因为你要保持你刚刚选择的单词加亮中),然后操作“Analyse: Coocurrance: make pairs via listbox”,生成了.coc或者共现文件。查看这个文件看看结果。

.coc文件中包含共现频次以及配对的两个项目,例如对于作者共现文件:

17 PILKINGTON_A HAYES_R

16 VOSS_C HAYES_R

15 HAYES_R HILL_T

14 MEREDITH_J HAYES_R

14 VOSS_C MEREDITH_J

14 HAYES_R SKINNER_W

13 VOSS_C HILL_T

12 PILKINGTON_A HILL_T

或者标题词共现文件:

6 manufacturing strategy

4 Strategic Management

3 strategy competitive

2 strategy new

2 mass customisation

2 manufacturing study

2 strategy case

2 manufacturing competitive

2 strategy strategic

2 competitive case

2 competitive strategic

我个人一般使用像UCINET之类的程序对这些数据进行进一步的网络分析,因为.coc文件与带有标记的.DL格式数据文件类似,但是把频数放在最左边而不是右边的一列,把数据转移到UCINET相对容易。如果你也想做这些分析,请阅读UCINET的帮助文件了解如何把数据输入到分析软件中去。

我采用的步骤包括把.coc文件输入到excel中去,剪切左侧一列的频数并复制到右边,把所有三列剪切粘贴到一个文本编辑器,给文件添加标题使其具有DL格式,比如:

UCINET中获得的结果往往会提供有关数据矩阵状态的清晰视图,如下图,并且可以使用更多的分析工具。

Pilkington个体网的作者同被引图

一般用户都需要一个含有.coc文件中项目的正方形矩阵。为了把.coc文件中数据列表转换为矩阵,像从前那样选择同样的单词加亮它们:使用“analyse: coocurrance: select units via listbox”,然后选择你的.cit文件,操作“analyse: make a matrix”,生成一个.ma2结果矩阵文件,由于它仍然是纯文本文件,可以用于其他程序中。

将这些矩阵文件输入到其他程序中的一个问题是,矩阵中只有每一列的顶部带有标签而侧面行则没有。为了解决这个问题,可以把文件输入到excel,插入一个新的空列,把顶部第一行拷贝下来然后选择“edit: paste special: transpose”,把标签加到每一行的前面。这就生成了一个带有完整标签的正方共现矩阵,更像一个四格表可以输入到SPSS中进行因子分析,对项目进行统计分组。

引文耦合

对于引文共现和同被引分析在描绘文献之间关系上还有一些争议,有人推荐使用引文耦合(bibliometric coupling,书目对)。引文耦合不是分析不同被引文献之间的联系,而是显示和分析来源文献之间的联系,不用说,使用Bibexcel中的共现单元方法也可以实现这种分析。

今后的可能

这只是我用Bibexcel完成自己工作时候所需要的步骤,等到你查看菜单和帮助文件的时候你会很清楚认识到这个软件还可以做很多事情。

 

Alan Pilkington

9.1.06

10

【翻译:zilu85@hotmail.com

 

 

 







https://blog.sciencenet.cn/blog-82196-271364.html

上一篇:基于本体的转化医学信息组织表达方法的探索
下一篇:为什么被引用?
收藏 IP: .*| 热度|

10 张红卫 王统领 贡金涛 孙岩 李贤 赵星 周春雷 陈国文 贺天伟 zguodong2006

发表评论 评论 (26 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 14:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部