化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

图书情报学核心期刊论文关键词计量分析研究(下)

已有 4107 次阅读 2008-10-24 11:14 |个人分类:情报探讨| 图书情报学, 核心期刊, 关键词, 计量分析, 内容分析

图书情报学核心期刊论文关键词计量分析研究()
 
化柏林[1]
中国科学技术信息研究所,北京 100038
(发表于《情报科学》2007年第8期)
 
[摘 要]应用型计量分析分为四类,其中主题型计量分析与评价型计量分析占主流,而预测型计量分析与资源获取型计量分析却很少。本实验以获取可计算资源为目的,从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文,利用VBA对文献的关键词进行统计分析,主要从数量分布、词长规律、增长趋势以及关键词与文章的数量关系进行了分析,并按功能对关键词进行了分类。
[关键词] 图书情报学;核心期刊;关键词;计量分析;内容分析
[分类号] G350
 
Keywords Statistical Analysis of Papers from Core Journal on Library and Informatics
HUA Bolin
Institute of Scientific and Technical Information of China, Beijing 100038, china
 
[Abstract]     Applicable bibliometrics are classified into four categories. Subject bibliometrics and evaluation bibliometrics are popular, but prediction bibliometrics and resource-acquirement bibliometrics are very poor. In order to acquire resource to support processing, we selected all papers which is published on library and informatics core journals from 1989 to 2005 from China Journal Full-text Database, and some aspects of them were analyzed by using VBA such as the count, length, increasing tendency of keywords and count relation between article and keywords. According to the analysis, it also presents keywords classification by function.
[Keywords]    library and informatics; core journal; keywords; bibliometrics; content analysis
 
5 图书情报核心关键词统计
求证图书馆学情报学的研究核心是一件很难的事情。图书、文献、数据、信息、知识、情报这几个概念根据不同的研究侧面可能会有不同的逻辑关系,但是无论它们的关系如何,围绕这个几个概念的相关活动仍是图书情报的研究重点,甚至应该是研究核心。因此本文对这些概念的相关活动进行了单独统计分析。对这些活动之间的逻辑关系与流程分析正在进一步研究中。从图3中可以看出四字关键词占绝对优势,而且四字关键词比较规范,一般由名词加动词、名词加名词或形容词加名词构成,因此把含数据、信息、知识、情报、图书、文献的四字关键词进行统计也颇有意义,含数据、信息、知识、情报、图书、文献的四字高频关键词如表2所示。
表2 含数据信息知识情报图书文献的四字关键词高频统计(各前20位)
关键词
频次
关键词
频次
关键词
频次
关键词
频次
关键词
频次
关键词
频次
数据挖掘
146
信息服务
2103
知识管理
655
情报检索
810
文献资源
324
图书编目
246
数据仓库
109
信息资源
732
知识经济
564
情报工作
462
文献检索
274
图书采购
211
书目数据
58
信息产业
593
知识产权
243
情报服务
382
地方文献
145
图书分类
190
数据备份
39
信息检索
580
知识创新
168
竞争情报
349
文献信息
134
图书补充
131
数据质量
32
信息技术
480
知识组织
154
情报研究
232
文献标引
116
图书外借
106
数据存储
26
信息管理
359
知识服务
147
情报教育
106
专利文献
106
电子图书
99
数据安全
26
信息组织
275
知识结构
95
情报分析
105
文献编目
101
图书著录
89
数据结构
23
信息需求
257
知识共享
67
情报需求
96
电子文献
100
图书采访
69
数据模型
22
信息市场
216
知识发现
62
情报机构
96
文献利用
93
中文图书
67
数据处理
22
信息系统
213
隐性知识
54
情报用户
93
文献著录
91
图书情报
56
数据转换
22
信息网络
189
知识传播
31
情报系统
79
科技文献
69
图书排架
50
数据格式
16
网络信息
186
显性知识
27
情报意识
63
文献采访
67
图书流通
50
数据管理
14
信息咨询
170
知识获取
26
图书情报
56
文献分类
65
图书评介
41
数据组织
14
信息安全
158
知识检索
24
情报事业
52
参考文献
60
图书保护
41
数据分析
13
文献信息
134
知识转化
23
情报职能
50
文献传递
58
图书发行
40
数据压缩
11
信息工作
133
知识工程
23
科技情报
49
文献工作
54
西文图书
33
数据采集
11
信息利用
123
知识仓库
21
情报科学
43
文献计量
52
图书开架
32
编目数据
11
信息开发
119
知识挖掘
19
情报信息
43
文献服务
48
图书市场
31
数据检索
10
信息时代
115
知识主管
19
情报管理
36
文献收集
44
图书管理
30
数据集成
9
信息交流
112
知识导航
17
情报人员
35
文献老化
44
图书改编
30
合计
634
合计
7247
合计
2439
合计
3237
合计
2045
合计
1642
在所有关键词中,含数据的关键词1,122个,共5,152次,平均4.59次/个;含信息的关键词3,405个,共21,202次,平均6.23次/个;含知识的关键词735个,共2,641次,平均3.59次/个;含情报的关键词879个,共7,409次,平均8.43次/个;含文献的关键词1,433个,共7,388次,平均5.16次/个;含图书(不含图书馆)的关键词706个,共3,954次,平均5.60次/个。可以看出,含情报的四字关键词相对较集中,含知识的四字关键词相对较分散。含数据、信息、知识、情报、图书(不含图书馆)、文献的关键词分布比重如图5所示。
图5 图书情报核心关键词分布图
图5中左饼图是不带频次的,表征出现的个数,个数越多,说明研究侧面越宽泛或研究内容越具体。右边的饼图为计频的,计频比不计频高的有信息、情报,尤其是情报差别最大,说明关于情报的关键词相对比较规范、概念比较统一、研究领域比较集中。计频比不计频低的有图书、文献、数据、知识,其中知识差别最大,说明关于知识的关键词相对比较不规范、概念不够统一或研究比较分散。
43,980个关键词共计202,821个次,其中含图书馆三个字符的关键词出现了1,610个,共25,973次;个数占关键词总个数的3.7%,频次占关键词总频次的12.9%,也就是每八个关键词就有一个是显性关于图书馆的,可见图书馆在图书情报领域的重要地位。含图书馆的关键词按频次前30位如表3所示。
表3 含图书馆的关键词高频统计表(前30位)
关键词
频次
关键词
频次
关键词
频次
图书馆
5855
图书馆自动化
595
图书馆学教育
102
高校图书馆
1998
图书馆建设
232
现代图书馆
101
数字图书馆
1889
大学图书馆
175
复合图书馆
98
图书馆管理
1237
专业图书馆
165
乡镇图书馆
98
图书馆学
1157
图书馆建筑
164
数字化图书馆
97
图书馆工作
1135
传统图书馆
151
图书馆网络
90
图书馆事业
1079
图书馆服务
147
社区图书馆
86
公共图书馆
991
虚拟图书馆
140
少儿图书馆
85
院校图书馆
955
图书馆学研究
113
中小型图书馆
78
图书馆员
785
电子图书馆
105
图书馆现代化
77
从表3中可以看出,关于不同功能的分类图书馆比较多,如高校图书馆,公共图书馆、少儿图书馆等,而反映图书馆的不同侧面的比较少,如图书馆员、图书馆建筑、图书馆网络等。关于图书馆业务流程(图书馆加动词)的非常少,反映流程的主要是以图书加动词为主。所以图书馆业务流程主要以图书的业务流程为主,也应验了图书是图书馆的主体。关于图书馆自动化、图书馆现代化、数字图书馆等近年来增势明显,但这些概念比较笼统,而图书馆学、图书馆工作、图书馆事业、图书馆学研究等非常稳定,不过热也不过冷。
6 关键词年度分布及增长分析
把每年的关键词频次统计出来倒排序,可以很清楚的看到当年的高频词,如表3所示。但是这个表并不能反映出当年的研究热点,只能反映出研究重点。像图书馆、中国、信息服务等年年都排在前面,这是学科的研究重点。近五年来高频关键词统计如表4所示。
表4 2001~2005年高频关键词统计表(各前10位)
2005年
频次
2004年
频次
2003年
频次
2002年
频次
2001年
频次
图书馆
503
图书馆
1018
图书馆
915
图书馆
802
图书馆
622
数字图书馆
298
数字图书馆
381
数字图书馆
369
高校图书馆
507
高校图书馆
326
高校图书馆
250
高校
351
信息服务
325
数字图书馆
391
数字图书馆
265
知识管理
143
中国
334
中国
319
中国
282
中国
263
中国
129
信息服务
285
高校
266
信息服务
272
信息服务
238
信息服务
128
读者服务
177
高校图书馆
240
网络环境
271
网络环境
205
网络环境
95
知识管理
153
网络环境
214
图书馆管理
137
知识经济
100
公共图书馆
93
信息检索
124
读者服务
190
企业
136
因特网
99
信息资源
93
数据库
123
网络信息资源
143
知识管理
123
图书馆管理
99
信息检索
82
资源共享
108
图书馆管理
120
图书馆员
115
信息资源
97
关键词的年度分布可以反映历年的研究重点,关键词增长可以反映历年的研究热点。关键词增长的计算方法很多。第一种是年增长量,用当年的频次减去上一年的频次,这种方法的弊端是高频关键词会靠前,如图书馆、中国等高频关键词会轮流排在前面;第二种方法是倍数,用当年的频次除以上一年的频次,这种方法会使得上一年较小的关键词排在前面,尤其是上一年频次为1的关键词;第三种方法是增长率,用当年的频次减去上一年的频次后再除以上一年的频次,得到的是相对于上一年的增长率;第四种方法是相对增长率,用当年的频次除以当年的所有关键词总频次f1,上一年的频次除以上一年的所有关键词总频次f2,然后用f1除以f2,当然也可以除以当年的文献数,这种情况主要是考虑不同年的文献量不一样,这种方法反映关键词在当年比重的增长情况;第五种方法是当年的关键词频次减去上一年的关键词频次再除以该关键词所有年的总频次,这种方法能够反映该关键词增长的高峰期,避免了基数大的词在当年排在了前面;第六种方法是把所有上一年为低频的次年变成高频的关键词统计出来,这种方式能反映出关键词的快速增长期,反映出新的研究热点。不同的计算方法有不同的优缺点,可以满足不同的需求。下面分别用第三种方法和第六种方法来分析近十年来的研究热点。用第三种方法计算高增长率的研究热点如表5所示。
表5 1996~2005年高增长率的研究热点统计表(增长倍数)
2005年
 
2004年
 
2003年
 
2002年
 
2001年
 
文章分析
12
问题
22
电子政务
17
服务理念
12
图书馆学教育
25
虚拟参考咨询服务
11
用户满意度
12
文献保障体系
13
信息获取
11
外国
23
向量空间模型
10
构建
10.5
信息共享
11
以人为本
11
学科发展
14
图书馆用户
10
随书光盘
9
读者意识
11
人力资源
10
竞争情报系统
13
信息资源整合
9
PHP
9
信息分类
9
建设目标
9
人力资源管理
12
开放存取
9
语义网
9
计算机软件
9
信息检索系统
9
CSSCI
10
制定
9
图书馆功能
8
信息发布
7
互操作
9
个性化服务
10
图书馆馆藏
8
B/S模式
8
图书馆合作
7
自动标引
9
关键技术
9
新模式
8
意义
8
信息决策
7
网络教育
8
中学图书馆
9
利用
7.5
作者
7.5
网络用户
6
目标管理
8
关系
9
 
2000年
 
1999年
 
1998年
 
1997年
 
1996年
 
 
电子商务
9.3
21世纪
12
知识经济
24
精神文明建设
21
文献利用
12
 
馆员素质
9
开发利用
9.7
文献检索
23
网络化
7
情报事业
9
 
信息咨询业
9
因特网
9.6
发展对策
19
电子出版物
6
信息教育
7
 
Intranet
8
大学图书馆
8.5
读者服务
18
信息资源管理
6
布局
6
 
信息交流
8
策略
8
开发
8.8
设计
6
图书馆网
5
表中列出了从1996年到2005年的增长较快的关键词,2001~2005年选取了前十名,1996~2000选取了前五名,它们大都实现了比上一年的十倍左右的增长。其中有一些能反映出研究热点,如2003年的电子政务、2000年的电子商务等,而有一些却不能反映研究热点,如2005年的制定、2002年的建设目标等。下面以第六种方法分析近十年来新的研究热点,如表6所示。
表6 1996~2005年突增研究热点统计表
2005年
 
2004年
 
2003年
 
2002年
 
2001年
 
本体
21/3
问题
46/2
信息共享
48/4
入世
28/4
影响因素
28/3
利用
17/2
网络导航
24/4
机读目录格式
21/4
服务理念
26/2
改革
26/4
对策研究
16/3
构建
23/2
数据库检索
21/4
用户培训
20/4
图书馆学教育
26/1
比较分析
16/3
馆藏
20/4
电子政务
18/1
复合图书馆
17/4
外国
24/1
现状分析
15/3
职业培训
19/4
立法
17/4
网络信息资源开发
17/4
馆际互借
22/3
网上
15/2
隐性知识
18/4
信息开发
15/4
著作权
17/2
西部地区
20/3
图像检索
14/4
作者
17/2
大学
15/4
职能
16/4
运行机制
19/4
优化
13/4
关键词
16/4
业务流程重组
14/4
社区图书馆
16/3
INTERNET
19/4
层次分析法
13/3
网格技术
15/3
文献服务
14/4
现代图书馆
15/4
SCI
18/4
文献计量
13/3
策略
15/2
图书采访
14/4
著作权法
15/4
西部大开发
18/3
 
2000年
 
1999年
 
1998年
 
1997年
 
1996年
 
 
电子商务
31/3
21世纪
39/3
知识经济
25/1
精神文明建设
22/1
读者研究
14/3
 
信息资源建设
26/4
开发利用
32/3
文献检索
24/1
数字图书馆
14/3
文献利用
13/1
 
互联网
26/4
比较研究
19/3
发展对策
20/1
电子出版物
14/2
图书馆网
12/2
 
图书馆服务
17/3
大学图书馆
19/2
读者服务
19/1
主题词
12/3
 
 
 
信息资源开发
16/2
著录
18/3
统计分析
13/4
利用
11/4
 
 
表6中列出了从1996年到2005年的增长突快的关键词,斜杠前面的为当年出现的次数,斜杠后面的为上一年出现的次数,本表列出的全是上一年不足5次,而当年出现的频次超过10次的关键词。如2005年的本体,2004年的隐性知识与网格技术,2003年的信息共享与电子政务,2002年的入世,2001年的西部地区和西部大开发,2000年的电子商务,1999年的21世纪,1998年的知识经济,1997年的精神文明建设等都反映了当年的时代特征和研究热点。当然针对每个关键词分年统计得到关键词的生命周期线,更能说明问题。
7 结束语
       关键词是作者自行抽取或者数据库加工商补充的。不同的人抽取关键词的原则有很大的不同。所以关键词的词频分析能说明一点问题,但离文章内容分析差的很远,甚至还谈不上内容分析。但对关键词、标题和文摘的分析是内容分析的基础。真正的内容分析一定是针对文章的正文字段,在已有关键词、标题和摘要分析的研究基础上,利用这些概率词典和句法结构,正文分析的研究可以适当进行小规模实验。
最能反映文章内容的当属文章正文,可是正文结构复杂、内容繁多、数据获取较困难,因此目前进行大规模正文分析还是很有难度的。随着越来越多的文章采用pdf转换而不是扫描得来的数据,元数据的不断扩充,RDF及XML的广泛应用,本体库的逐步构建,加上自然语言处理的研究新热与人工智能的飞速发展,进行大规模正文分析的日子也是越来越近。
在图书情报界,构建其它领域本体的比较多,如花卉、民乐、军事、医学等,但还没有发现构建图书情报本领域的本体,本体在图书情报界如此之热,我们却不研究自己的本体。图书情报学和语言学、数学一样作为一个独立的学科领域,既有自己的学科属性,同时也为其它领域提供支撑。元数据研究了这么多年,主要还是针对文献的外部特征,没有深入到正文字段的内容描述。如文章内的论点、论据、论证、定义、诠释、分类、关键技术、难点、重点、发展历史、国外进展、应用前景、实验数据、实验过程、实验结果、测试、评价、缺点、尚未解决的问题等描述文献内容的元数据却少人问津。只要图书情报领域的专家把文献内容元数据构建起来,语言学家把描述这些元数据的语言学规律总结出来,进行真正的内容分析不是没有可能。一旦能够对正文内容进行分析,那计算机可做的事情就多得很了,搜索、文摘、分类、知识抽取(温有奎教授使用的“知识元挖掘”)等一系列的课题便会迎刃而解。
 
参考文献
1〕苏新宁图书馆、情报与文献学学术影响力研究报告(2000-2004)――基于CSSCI的分析J情报学报,2006,(2):131~153.
2马费成,张勤国内外基于知识管理研究热点基于词频的统计分析J情报学报2006,(2):163~171.
3〕李长玲,化柏林我国网络计量学研究的文献计量分析〔J图书情报工作,2006,(946~50.
4〕化柏林,张新民.情报学学科范畴研究的方法论J.情报学报,2007,(x
5〕朱庆华,陈铭信息分析基础、方法及应用〔M北京:科学出版社,2004150.
6〕李保利,陈玉忠,俞士汶信息抽取研究综述J计算机工程与应用,200310):1~5,66.
7李文兰,杨祖国中国情报学期刊论文关键词词频分析J情报科学,2005,(1):68~70.


作者简介:化柏林(1977-),男,山东临沂人,助理研究员,硕士,从事自然语言处理研究。


https://blog.sciencenet.cn/blog-91591-43832.html

上一篇:情报学学科范畴研究的方法论
下一篇:用VBA实现文献计量分析研究中的数据预处理技术
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 11:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部