|||
国内知识图谱研究的可视化分析
魏瑞斌
(安徽财经大学管理科学与工程学院,蚌埠,233030)
摘要:对国内知识图谱期刊论文的外部特征和内容特征进行可视化分析。研究表明:国内知识图谱研究处于起步阶段,研究人员和机构相对集中,研究论文的合著率较高,研究主题鲜明。今后的研究需要加强学科间的合作,加强基础理论研究,创新研究方法,优化数据质量。
关键词:知识图谱 可视化 共词分析 Ucinet
分类号:G310
1引言
知识图谱是将以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。随着统计分析、引文分析和网络分析方法在科学计量学领域的广泛应用,以及计算机图形学和可视化技术的发展,知识图谱研究在20世纪90年代以后得到迅猛发展[1]。
知识图谱的研究发端于美国、荷兰等国。根据刘则渊教授对科学计量学重大变革的三条路径与重要人物的介绍[1],笔者认为国外知识图谱的研究主要有三大学派。第一类是科学计量学学派。这个学派主要是以引文分析理论为基础研究不同学科的知识图谱。如加菲尔德等人(1964)手工绘制了DNA领域的历时态图谱[2];普赖斯(1965)运用相同的数据完成了他的经典论文“科学论文网络”[3];Small(1973)年提出了论文“共被引”的概念和共被引分析方法,并绘制了粒子物理学领域高被引论文的共引图谱[4];White、McCain、Noyons等人(1998)将引文分析与多维尺度分析相结合,建立了基于多维尺度分析的知识图谱方法[5][6]。第二类是复杂网络学派。这个学派主要是利用复杂网络理论和方法对引文网络、科研合作网络、关键词共现网络等展开研究。如社会学家Hummon(1989)把社会网络分析方法引入了引文网络研究,提出了引文网络中的关键路径算法[7];纽曼(2001)用复杂网络方法测定了生物医药、物理学和计算机科学等领域科学合作网络中最有影响力的科学家,并揭示了科学合作结构具有复杂网络的高集聚和小世界等特性[8][9][10]。第三类是可视化学派。这个学派的研究者将计算机科学的理论、方法和引文分析等有机结合,利用专门软件对大量反映知识结构及发展脉络的数据自动处理,生成可视化的知识图谱。如陈超美提出了探索关键路径的pathfinder算法,并开发了供全球用户免费下载使用的Citespace软件。他(2010)还提出了多视角的共引分析方法,把共引网络分为多个聚类谱,重点关注聚类谱之间的相互关系[11]。Mane和Börner(2004) 探讨了Kleinberg跳变算法、共词分析和图像展示技术在研究主题和发展趋势中发现中的应用[12]。阿米德等学者(2004)运用Wilmascope三维动画可视化技术对IEEE InfoVis引文网络进行可视化分析[13]。Henzinger和Lawrence(2004)基于环球网图表模型和历时时间的聚焦式缓慢动态模型,进行科学研究共同体识别[14]。
总体看,国外学者在知识图谱的理论、方法和可视化软件等方面都处于领先地位。他们的研究内容涉及很多学科领域;科研合作也非常明显。在国内,以刘则渊教授为首的学术团队率先引入的知识图谱的概念,成立了网络-信息-科学-经济计量实验室(WISE LAB),并与鲁索、克雷奇默、陈超美等国外知名专家开展合作研究。本文利用可视化方法对国内知识图谱研究的研究现状进行分析,并提出这个领域今后的需要加强的研究内容。
(图片上传不便,中间三个部分略去,详见附件。)
5启示与思考 国外知识图谱研究虽然取得了一些成果,但与国外研究相比,有些方面还需要加强。基于前面分析结果,笔者认为,国内知识图谱的研究今后可以在以下方面着力: ①吸引更多的学科和研究机构人员来参与知识图谱研究。知识图谱研究是一个跨学科的研究领域,因此合作研究非常重要。前面分析表明,国内知识图谱的研究队伍已经形成了一定规模,但研究人员目前主要是科学学和情报学的学者,计算机领域的研究者参与较少。研究工具都是国外软件,国内还没有专门的知识图谱绘制软件。国外软件对英文文献支持较好,对中文文献和数据库支持不足。这也是导致我国知识图谱的研究与国外差距较大的一个客观原因。 ②进一步加强基础研究。前文分析表明,国内在知识图谱以定量研究为主,主要是利用国外知识图谱绘制软件绘制不同领域的知识图谱,定性研究主要侧重于对国外研究进展的介绍和宣传。在知识图谱的基础理论、研究方法、研究热点的发现算法等方面的基础研究有待加强。 ③创新研究方法。尽管从前文分析当中可以发现知识图谱的研究已经有很多较为成熟的方法,但基本都是由国外学者提出并率先使用的,国内学者缺乏自己独特研究中文文献的方法。研究方法的创新应该是今后需要加强的研究内容之一。 ④进一步优化期刊质量,优化数据库的建设。数据质量直接影响知识图谱研究结果的有效性。我国学术期刊在作者、关键词、参考文献等信息的著录格式还不统一。这导致期刊数据库的数据质量存在先天缺陷,进而影响后期数据的处理和分析。与国外SCI等数据库相比,国内数据库起步较晚,利用其做长时间段的研究困难较大。 6 结语 本文的研究不足之处主要有:⑴本文选取了知识图谱研究主题文献,由于检索策略的局限,可能还有一些文献没有进入数据集,这将影响到本文的数据完备性。⑵对文献内容特征的分析可能受限于文本本身的复杂性和笔者的知识结构。今后,将通过社会性网络中的介数、中心性等定量的指标对不同知识网络结构进行定量分析。 参考文献: 1刘则渊,陈悦,侯海燕等著.科学知识图谱:方法与应用[M].北京:人民出版社,2008:16-26 2 Garfield, E., I. H.
Sher, and R. J. Torpie. The Use of Citation Data in Writing the History of
Science. [2010-9-26].http://www.garfield.library.upenn.edu/papers/useofcitdatawritinghistofsci.pdf 3 Price D. Networks
of scientific papers[J].Science,1965(149):510-515 4 Small
H.Co-citation in scientific literature: a new measure of the relationship
between publication[J].Journal of the America society of information
scienc,1973,24(4):265-269 5White,H.D.,McCain,K.W.Visualizing a discipline: an
author co-citation analysis of information sicnece,1972-1995[J].Journal of the America
society of information scienc,1998,49(4)327-356 6 Noyons,E.C.M.,Van Raan,A.F.J. Advanced mapping of science
and technology[J].Scientomtrics,1998,41 (1-2):61-67 7 Hummon
N.P.,Doreian P. Connectivity in a citation network: the development of DNA
theory[J].Social networks,1989(11):39-63 8 Newman. M.E.J.The
structure of scientific collaboration networks[J].PANS,2001,98(2):404-409 9 Newman. M.E.J.Scientific
collaboration networks.I.networkd construction and fundamental results[J].Phys
Rev E.2001,64:16-131 10 Newman. M.E.J. Scientific
collaboration networks.II.shorts paths,weighted networks,and centrality. [2010-9-26].http://www.cs.ucc.ie/~rb4/resources/Variations.pdf 11 Chaomei
Chen, Fidelia Ibekwe-SanJuan, Jianhua Hou .The Structure and Dynamics of Co-Citation
Clusters:A Multiple‐Perspective Co-Citation Analysis.[2010-9-26].http://arxiv.org/ftp/arxiv/papers/1002/1002.1985.pdf 12
Ketan K. Mane,Katy Börner. Mapping
topics and topic bursts in PNAS. PNAS,2004(4):5287-5290 13 Adel Ahmed,Tim Dwyer,Colin Murray,et al.InfoVis
2004 contest:WilmaScope Graph Visualation.[2010-9-26]. http://www.cs.umd.edu/hcil/InfovisRepository/contest-2004/1/WilmaScopeGraphvis
Summary.pdf 14 Monika Henzinger,Steve Lawrence.Extracting
knowledge from the World Wide Web. PNAS,2004(4):5186-5191 15陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究, 2005,
23 (2):149-154 16秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009(1):30-37,96 17王晓光.科学知识网络的形成与深化(I):共词网络方法的提出[J].情报学报,2009,28(4):599-605 18陈悦,刘则渊,陈劲等.科学知识图谱的发展历程[J].科学学研究,2008,26(3):449-460 19廖胜姣,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,32(1):122-125 20梁秀娟.科学知识图谱研究综述[J].图书馆杂志,2009,28(6):58-62 21赵玉鹏,闫巍.科学知识图谱在研究生教学中的应用[J].通化师范学院学报,2009,30(7):111-113 22汤建民.学科知识图谱的绘制及在学科发展监测与评价中的应用[J].情报理论与实践,2009,32(10):55-59 23姜春林,王海龙.科学知识图谱在科技期刊编辑工作中的应用[J].编辑学报,2010,22(1):26-28 注:本文在《图书情报工作》2011年第8期刊出。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-29 06:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社