||
《科学前沿图谱——知识可视化探索》的精彩序言与自序
武夷山
日前推荐《科学前沿图谱——知识可视化探索》(http://blog.sciencenet.cn/blog-1557-823788.html),受到大家欢迎。今大连理工大学刘则渊教授慨然提供了曾任国际科学计量学和信息计量学学会会长的Henry Small先生为该书写的“序”和陈超美博主的“自序”,两篇文章都很精彩!现贴出与大家共享,以不孚刘教授和陈教授的美意。
最后,还附上本书第一译者陈悦副教授写的“致谢”。
(想看文中插图的,请点击链接
20140902科学前沿图谱 译序-英文版序-自序-致谢.docx)
序
绘制科学图谱听着也许有些自相矛盾:科学这么抽象的东西能像地图一样画出来么?科学知识所代表的境界也许只有最有经验的科学家们才能捕捉到它的奥妙。然而,本书所展现在我们面前的是:科学知识图谱的研究不仅已经生根,发芽,而且正在开花,结果。不错,也许这只是一个漫长发展历程的开始,就像当年探险家们刚刚能画出第一张粗糙的世界地图一样。但是,从逻辑上来看,绘制科学知识图谱其实不过是把绘制普通地图时的对象变成了知识本身。
科学在当今世界中的重要地位不言而喻,科学为此所付出的努力也毋庸置疑。虽然我们的社会有时候小看了科学的作用,没有给它提供充足的资金支持,甚至试图阻碍科学教育计划的实施。可是,在当今人类智慧产物中,还有什么比科学更值得我们关注的呢?当然,科学本身既可用来行善,也能造成破坏。不管是谁掌握了科学原理,科学都会给其带来巨大的力量。有时候,个别科学家可能会滥用我们对他们的信任而争夺名利,超美在书中所研究的“撤稿”现象就反映了这种情况。尽管会存在这样或那样的例外,但科学仍然是我们了解宇宙的必由之路,也是人类社会和经济福祉的源泉和根基。
尽管我们用来描述科学的语言中,不乏类似于研究“领域”(field),研究“范围”(area)这样带有空间色彩的隐喻。但当我们一旦开始绘制一幅科学图谱的时候,就会发现那些绘制地图所用的方法全都不在适用。我们所面对的,是“研究论点”、“研究方向”、“研究领域”或“研究学科”之间的抽象的关系和联系,而这些关联本身的存在与否也许还是个问题。托马斯•库恩(Thomas Kuhn)在一次采访中意味深长地说,“注意,现在的概念已经不再适用于过去的领域了。不单是其中的观点的变了,学科的结构也变了。” (Kuhn, 2000, p. 290)。我们认识到,不论是在过去还是在现在,科学都还有待探索。我们是否有足够理由把这些抽象的、甚至都不一定存在的关联表现为空间形式吗?我们是否在本能地把知识间的相互关联映射到实际空间?
科学知识图谱之所以难以绘制,也许是因为要想绘制出一幅有意义的图谱,需经历三个基本步骤,而其中两步都涉及一定程度的数学变换。首先,我们需要选择一个合适的分析单元,它应该包括构成我们科学宇宙的基本粒子。第二步,需要定义如何度量这些单元之间的关联。第三步,需要找到一种方式把这些分析单元及它们之间关联在低维空间(通常是二维)里显示出来。一旦能够实现这几个步骤的跨越,绘制科学知识图谱就变得水到渠成,自然而然了。
早先创立的科学史、科学社会学和科学哲学等学科,已经为我们了解科学思想的创生和演化、科学的社会建制和科学的哲学基础,提供了必要的方法和工具。但是,除了科学社会学的一些早期研究,这些学科所采用的方法一般都是定性的。科学史研究主要是利用史学的通用方法进行建构叙事,科学哲学则以逻辑基础和认识论作为研究特色。科学社会学,秉承创始人之一的罗伯特•默顿(Robert Merton)所用的研究范式,既重视理论基础,又鼓励使用定量证据。这一思路也被早期的社会网络研究者们所借鉴,进行无形学院的研究。然而到了20世纪70年代,科学社会学却背离了它早先的研究传统,转而信奉更为激进的科学社会学理论,如科学知识的社会建构,从而基本抛弃了早期科学社会学家所采用的定量研究方法。
此后,随着大型的科学文献数据库和引文数据库的出现,同时也为了反对建构主义的科学社会学,一个利用新的方法研究科学演化的学科诞生了。这个学科被称为科学计量学,或者信息计量学、文献计量学。这些称谓,一方面反映了其注重定量和计量的方法特征,另一方面也反映了其起源于图书馆学的历史渊源。不过,现在还不能说这个新兴的学科已经得到了学术界的认可,尤其是那些已经发展成熟的学科的学者的认可;对科学计量学而言,制度化的大学学科建设和学术地位也才刚刚开始建立。科学计量学的批评者们认为,单纯地将科学文献作为其主要数据来源,限制了对其他在科学研究中出现的数据的研究和分析。好在,机器可自动识别的科学论文的全文格式的获取正变得越来越容易,为我们开辟了很多新的可供分析的数据来源,使我们有条件做一些用索引数据库不可能做到的研究。与科学计量学相关的软件包也开始出现,在这方面超美已经做出了榜样。种种证据表明,尽管在如何更好与传统的方法,如科学史、科学社会学、科学哲学等研究方法,建立联系并进行融合方面,还有很长的路要走,但这一新兴研究领域已经站稳脚跟,并正在越来越多的在科技政策层面发挥作用。。
本书的难得之处正在于,它构建在科学史、科学哲学的概念和发现的基础之上,而同时加入了新维度。在该书的第八章给出了一个关于诱导多能干细胞的案例,展现了科学知识图谱不仅可以帮助医药学的研究者了解自身研究领域的全貌,而且也为科学的史学研究提供了有益的参考资料。对科学知识图谱这一新兴研究领域的作用仍持怀疑态度的读者,应该读一下这一章。从中,我们可以看出新方法在探究和追踪当今科学重要进展的内部结构方面的巨大潜能。
本书还构建了一个宏大的学科框架,从计算机科学,到信息科学,尤其是信息可视化技术。在第一版中,超美曾如此评价那些催生了科学知识图谱的学科:“最近几年,不同的科学知识图谱绘制方法,犹如百川入海,殊途同归……如何把知识的可视化变成一个统一的、跨学科的研究领域,还有很多的工作要做。” (Chen, 2003, p. vii) 今天,这句话依然正确。科学计量学、计算机科学、网络分析方法仍然在围绕着相同的数据和问题各自为战。也许,作为学科壁垒的副作用之一,这一点无法避免。但是,我们希望本书能够有助于建立起这些不同的学科之间的联系。
绘制科学知识图谱与科学史息息相关。其例证之一是,超美以T.库恩的著作作为绘制科学知识图谱的一个重要依据,因为库恩所谓的科学革命可以视作一系列的时点截面图,科学在这些时点上发生着根本性的结构变革。截面分析也是科学史学家非常认可的一种方法,因为史学家深知要想理解一个历史时期的思想,就要进入那个时期的心理状态,“想他们之所想”(Kuhn, 1977, p. 110),而不是用现在的理解去解释过去的科学。这个要求其实很难,因为一旦我们知道了已经出现的新发现和新结论是什么,就很难不被它们影响,我们常常迫不及待的要去找到这个新发现的先驱和肇端。作为研究者,我们需要尽量避免这种“让现在影响过去”的态度。
绘制科学知识图谱是由不同的学科知识汇聚形成的,尤其是心理因素和社会因素之间的相互影响,前者如库恩的格式塔转换理论(一种看待概念转换的方式),后者如学院关系网和无形学院。社会关系是否决定了认知关系呢?或是认知关系决定了社会关系?在Stanley Milgram早期有关社会网络的研究(1967)中,受试者需要考虑如何通过熟人的熟人与陌生人建立联系。在Don Swanson关于隐藏的公开知识的研究中,科学发现依赖于寻找那些不相关概念之间的间接联系。可见,在社会结构和认知结构的研究中,使用的其实是同一种思路。如果我们以词语和引文作为我们绘制科学知识图谱的基本单元,那么心理学就会起作用,因为这其中涉及到作者的记忆和回忆;但是记忆和回忆也受其他作者和同事的话语影响。如果我们绘制科学家的合作关系,那么社会因素显然会起作用,但是心理因素同样也会影响我们对合作者的选择。因此,社会和心理学因素在科学的社会结构和知识结构中,不可避免的缠绕在一起。
在绘制科学知识图谱时,存在不同的分析单元可供选择,如词语、引文、作者、期刊等等,每一个还有对应的共现分析,如共词、共被引、共作者,期刊引用等等。而所有这些分析方法,归根到底是我们想要看到的结构类型和关系程度。比如,若要更好地理解科学发现在某个专题发展中的作用,我们可以应用共被引分析,因为很多发现都是与具体的文章和作者联系在一起的。而如果我们想关注更广泛的社会性,即非学术性因素时,便可以应用共词分析,因为这样我们可以更容易的获知公众或者政府对科学的态度。期刊,作为一种更宽泛的分析单元,或许更适合用来表示整个研究领域或学科。分析单元的选择还受限于其所处的历史阶段。文献共被引对于分析1900年之前的文献可能就无能为力,因为那时候还没有关于引文的规范。但是,对于这些早期文献,可以进行基于全文的共词分析。试想,如果我们可以对科学早期的文献,比如18世纪的科学文献,进行共现分析或者其他图谱绘制,我们是否就可以识别出那个时期的主要思想派别和重要范式转移呢?这种设想是有意义的。
另一个重要的问题是怎样解读科学知识图谱。我们知道,科学知识图谱隐含的关系网络是高维度的,其在二维空间上的投射只是原始结构的一个近似,有可能会造成其实不那么相关的结点在图谱上的位置非常靠近。这意味着我们需要更加重视连线本身。连线是生成二维图谱的第一步,就像构成大脑世界的神经元一样。只有知道连线的含义,我们才能更好的理解科学知识图谱的内涵。这就要求我们充分了解连线发生的语境,用新的方法来表达并分类这些联系,比如通过功能或类型进行分类,分为逻辑相关、因果相关、社会相关、假设相关、隐喻相关等等。在这方面,一个重要的进展是在本书最后一章描述的“可视化分析”系统,它的出现可以让我们对以支持决策为最终目的的图谱的绘制原则进行深入地探索。
绘制科学知识图谱中令人兴奋的一个原因是这个领域的不断变化:每年都有一些新论文发表,随着新兴研究领域的出现或现有研究领域的消亡,科学知识图谱的结构也随之改变。这种状态也许会让有些人产生不安稳的感觉,而他们所愿意看到的科学知识应该是稳定的和可预测的。但是正如默顿(Merton, 2004)所说的那样,机遇是科学所特有的。所以,对科学知识图谱也一样。我们目前还无从知道,科学发现究竟是否可以预测,是否具有可以识别的前兆,以及是否可以通过某种机制来促进新发现和新发明的快速出现。不过,由于在科学知识图谱上标识出已有的科学发现并非难事,所以我们还是有可能通过研究科学发现之前的图谱,从结构上寻找科学发现的端倪。
这是一本关于信息可视化的著作,涉及许多方面,而尤其侧重于科学知识图谱绘制。绘制科学图谱作为一个新兴领域,还处在他的婴儿阶段,还要面对许多理论和实践上的挑战。本书的最后一章列出了这些挑战。新的修订版中有很多精辟的内容,该书不仅可以作为入门者的初级读本,也可以帮助资深专家学者全面了解这一领域的最新进展。
参考文献:
Chen, C. (2003). Mapping Scientific Frontiers. London: Springer.
Garfield, E. (1968). “World Brain” or Memex?” Mechanical and intellectual requirements for universal bibliographic control. In: E. B. Montgomery (Ed.), The Foundations of Access to Knowledge. Syracuse, N.Y.: Syracuse University Press, pp. 169-196, from http://garfield.library.upenn.edu/essays/v6p540y1983.pdf.
Kuhn, T.S. (1977). The Essential Tension. Chicago: University of Chicago Press.
Kuhn, T.S. (2000). The Road since Structure. Chicago: University of Chicago Press.
Merton, R. K. & Barber, E. (2004). The Travels and Adventures of Serendipity. Princeton: Princeton University Press.
Milgram, S. (1967). The small world problem. Psychology Today, 2, 60-67.
Swanson, D. R. (1987). Two medical literatures that are logically but not bibliographically connected. Journal of the American Society for Information Science, 38, 228-233.
美国科学技术策略公司(SciTech Strategies, Inc.)
亨利·斯莫尔(Henry Small)
第二版英文版自序
从2002年《科学前沿图谱》第一版出版至今已有10多年了。这期间发生了许许多多的变化。社交媒体蓬勃发展的程度远远超出我们的想像。从FaceBook(2004年)、YouTube (2005年)到Twitter (2006年),新闻、争论、恶作剧和学术博客等在新舞台上各显神通。iPhone (2007)、iPad (2010)等移动设备使得这些社交媒体真正达到了无孔不入、无处不在的境地。
科学在过去的十年发展中有所突破。2002年,格里戈里•佩雷尔曼(Grigori Perelman)证明了困扰数学界一个多世纪的“庞加莱猜想”;2006年,山中伸弥(Shinya Yamanaka)和他的同事开启了诱导多能干细胞(iPSCs)的研究,并获得诺贝尔奖; 2012年,欧洲核子研究中心发现 “上帝粒子”等等。
大科学正在变得更“大”。海量数据采集正致力于科学研究,如始于2000年的斯隆数字巡天项目(Sloan Digital Sky Survey, SDSS) (2000-2014)预计获取超过一百万个天体的多色测光资料和光谱数据而成为一种大数据源。随着已有科学领域的变革,新的研究领域不断兴起。2005年,可视化研究作为新生事物进入我们的视野,极大地促进了将科学技术应用于解决现实问题,尤其当我们要处理的数据是复杂的、不确定的、不完整的并具有潜在冲突时,它的优势就越发显现出来。关于科学文献自身良好品质的维护是一个很好的例子。出版物种类与数量的增多掩盖了撤销论文在数量上的实际增长。要维护一个值得信赖的科学知识团体,我们需要如何作为?
《科学前沿图谱》这本书发挥着什么作用呢?通过谷歌学术搜索,该书在互联网上已被引频次高达235次,而其施引文献又被更多的文献所引用。我们可以通过这些施引文献来窥见科学知识图谱研究的发展状况。有趣的是,从被引的情况看,科学知识图谱的发展经历了两个阶段。第一阶段从2002-2008年,第二阶段从2009至今(见图1)。在第一阶段中,2007年的被引频次达到峰值,而第二阶段头三年的被引情况相对平稳。在WoS中检索分析结果也是类似的。
图1. 引用《科学前沿图谱》的文献数量年度分布. 资料来源: Google Scholar.
这种引用状况说明了什么?我们将《科学前沿图谱》的一系列施引文献作为一个整体来研究它们是如何反过来被随后发表的文章所引用。尤其是当我们关注那些在2002-2013年间被引率突增的文献时,情况就更加明朗了。图2列出了这种被引率突增的25篇文章。前一阶段的文献主题全部聚焦在“信息可视化”和“引文分析”上。在《科学前沿图谱》写作之初,确实就是出于这样的想法:将这两个不同学科的研究领域联系起来。
图2.《科学前沿图谱》的施引文献的引文分析显示出两阶段。红条表示被引率突增
第二阶段的文献主题不同于前一阶段,主要是一系列在学科层面上绘制科学知识图谱的文献。从被引率突增的角度来看,这个阶段最具有影响力的研究工作是2009年波特(Alan L. Porter)和拉法斯(Ismael Rafols)发表在SCIENTOMETRICS上关于 “科学的跨学科”研究。其次,是2010年拉法斯、波特和雷德斯道夫(Loet Leydesdorff)发表在the American Society for Information Science and Technology上的“科学图谱叠加”一文。目前,我们仍然处在第二阶段。从分析的单元和规模来看,跨学科互动研究是一种有助于更好理解科学前沿动态发展的成效方式。
除了概念和理论方面的发展,在分析、可视化和探索科学文献发展模式和趋势等计算工具的选择方面,研究人员相对过去而言有更加广泛的选择空间。值得关注的工具包括CiteSpace、HistCite、VOSViewer、Sci2、GeoTime、Jigsaw、Tableau、Gephi、Alluvial Maps、D3以及更通用的WebGL信息可视化软件等。今天,随着可视化分析工具,数据源以及研究范例越来越容易获得且兼容,有一种力量正在积聚。科学前沿图谱已经迎来了新的起点,充满前所未有的机遇,它将跨越多种学科领域,从而对科学研究活动产生更为广泛的影响。
《科学前沿图谱》第二版将会让您了解科学知识及其动态演化研究中一些最有意义的发现和进展。补充的内容如下:
在第二章中,介绍了斯隆数字天空勘测计划(SDSS),以展示宇宙图谱的绘制。
第三章,介绍了一系列主题演化图谱,包括众所周知的ThemeRiver, 使用简单的TextFlow,以及用途广泛的Alluvial Maps.
第八章的内容是全新的。介绍了预测的分析框架,并将其应用于再生医学研究领域,其中“诱导多能干细胞(iPSCs)”因其突出的贡献而被授予2012年诺贝尔医学奖。在这一章中,我们也讨论了论文撤销的现实意义。这一章的后半部分主要介绍科学全域图谱的设计、构建和分析,包括我们新设计的“双图叠加”。
第九章的内容也是全新的。该章列出了一些最具代表性的可视化分析工具,例如GeoTime和Jigsaw等。同时本章还描述了CiteSpace的主要分析功能。
在第一版结论中我们提出了10个挑战。我们有必要再重新审视十年前提出的这些问题,看看有哪些变化,还有什么新情况的出现。
在第二版的最后,将提出科学前沿图谱面临的一些新的挑战和重要事件。
陈超美
2013年4月15日
美国宾夕法尼亚州维拉诺瓦
致 谢
没有人比我更清楚,这本译作的诞生有多么的不容易,它完全是团队努力的结果,因此在这个致谢中免不了会有疏漏之处,也难以充分地表达我对这本著作曾经做出贡献的人们的感激之情。
2004年,《参考消息》上的一则消息引发了刘则渊教授的极大兴趣,他以特有的学术敏锐性带领着我们懵懵懂懂地进入了这片在当时还不为国内学术界所了解的“科学知识图谱”研究领域。2005年,在著名科学计量学家克里奇默(Hildrun Kretschmer)博士的帮助下我们创建了WISELab,同年我们发表了国内第一篇“科学知识图谱”的论文。接下来的几年,我们以“初生牛犊不怕虎”的精神在国内外发表了一系列“科学知识图谱”研究成果。2008年,我们有幸邀请到信息可视化领域的世界领军人物陈超美(Chaomei Chen)教授担任长江学者讲座教授,并组建了以刘则渊教授和陈超美教授为核心的大连理工大学长江学者研究团队。几年来,在不断地学习和交流过程中,我们对科学知识图谱基本原理、理论体系、主要方法、技术手段和应用的理解日益成熟。国内学者对 “科学知识图谱”的持续关注,使我们觉得有必要将一些科学知识图谱的经典理论文献推介给国内学者。陈超美教授的《科学前沿图谱——知识可视化探索》正是一本关于科学知识图谱基本概念、理论、方法及工具的著作,对科学知识图谱充满热情的学习者们是一本很好的入门书。
这本著作的第一版早在2002年就出版了,实际上,我们在2009年就开始了这本书的翻译工作,当时我们将这本书作为科学学与科技管理研究所硕士研究生专业英语课的教学用书,为的是让大家了解国际上科学知识图谱的相关理论,在学习和讨论中,最初的译稿渐渐成形。在此非常感谢科学学与科技管理研究所的两届硕士生,商慧子、李苗苗、陶亮、周磊、潘存海、张静、唐悦、郭文娟、刘宇、陈玉光、刘银莲、路春婷、于霜、刘倩楠、张帆、黄明、张曦、姜朝妮、王威、李名子、王和平、王小晓、胡晓玮、沈露威、张玲、齐雪芹、张捷、陈禹、李瑛、刘迪、王文苑、梁帅、许建武、赵冰晴、刘佳、肖剑杰、邢黎黎、徐申萌、李佳、李鑫,在与他们共同的学习和探索中,我们对科学知识图谱的概念和思想的理解逐步加深。2013年,《科学前沿图谱——知识可视化探索》的第二版由Springer出版社正式出版,这一版较前一版内容有所更新,理论更为丰富和充实,经过多年对科学知识图谱的研究,我们对这本书的理解更为深刻。于是,我们决定重新组织人员在原有的基础上对新版著作进行翻译,主要译者为陈悦(第一、二、三、四、七章)、王贤文(第八、九章)、胡志刚(第五章)、侯海燕(第六章),在这次翻译过程中,我们特别要感谢原著作者陈超美教授,他不仅用自己的聪明才智完成了这本科学知识图谱领域的经典入门之作,而且对我们的译文也提出了详尽修改意见,并参与了书稿的校对工作。同时,我们对王传丽、王博、苏立新、徐申萌、毛文莉等几位博士生和硕士生也深表谢意,他们也做了不少的翻译与校对工作。我们还要感谢敬爱的刘则渊教授,正是在他的不断鼓励和支持下,本书的翻译才能最终完稿。感谢科学出版社及细致耐心的邹聪编辑和王酋艳编辑,每次看到画满了各种符号标记的校稿纸版本,我们内心都充满了感激,你们是这本重要译作的优秀催产士。
最后,我们要向读者坦诚相告,我们实际上是在诚惶诚恐当中完成了这本译作,因为我们时刻担心由于我们的翻译而遮掩了原著作本有的华彩,但又非常急切地希望能将这本书的内容介绍给国内的学者,尤其是那些对绘制科学知识图谱充满期待和兴趣的人们。因而,我们在此真诚地感谢所有的读者对我们翻译不足之处的包涵,并欢迎能就此书与我们沟通与交流。
陈 悦2014年6月10日于WISELab
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 09:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社