闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

从统计数字看科研方向(131104) 精选

已有 18761 次阅读 2013-11-4 08:51 |个人分类:计算机|系统分类:科研笔记| 科研方向, 数据统计

从统计数字看科研方向(131104

闵应骅

 

   科研方向的确定不但对研究生很重要,对所有科研人员,包括科学家,都很重要。因为同一个学科的不同的科研方向是动态变化的,对于像信息科学、计算机科学这样日新月异的学科就更是这样。过去科研方向的确定主要靠学术带头人的指引。现在,从科研经费和出版物可以大致看出科研方向的发展变化,如果科研经费的来源是自由而多元的,文章的发表不是硬拼凑出来的。就像医疗、气候、股票都讲究预测,从已有数据看趋势。事实上,Web of Science收集了1900年以来各学科的5千万篇科技论文,可以分析科研领域的分合发展趋势和单篇文章的影响,研究学科之间的交叉和协同。

201310月的CACM发表一篇文章,“计算机科学研究的趋势”,就是以计算机科学为例,考虑1990-2010年美国国家科学基金(NSF)资助项目和ACM数字图书馆和IEEE数字图书馆所列论文,来研究计算机科学的发展趋势。他们发现,假如出版物中一个特定课题文章发表频率剧增,通常说明这类课题的资助增加了。他们也发现只有较少的作者长时间在同一领域发表文章,说明学术研究群体的更新和频繁改变,也说明计算机科学领域的范围变化很快。他们分析的主要依据是这些论文的题目、关键词和摘要。

1各领域IEEE论文数的百分比


1给出IEEE数字图书馆的文章458,395篇按维基百科把计算机科学分为16个学科领域,每个领域各年所占百分比。从图可以看出,算法和数据库管理系统所占百分比一直较高,而信息检索则增长较快。论文篇数每年指数增长,但ACM1994年以后“mathematics of computing”(主要指离散数学,包括图论)方面的论文数比例下降。如果按作者给出的关键字分析,控制理论和逻辑方面下降,这方面的重点从一般移到某些特定的范围。提得最快的是信息系统,其关键字一般是XML,因特网,Web服务,语义网。而IEEE文章增多最快的领域是信息科学和信息检索。进一步,可以用关键词出现的文章数、在所有文章中出现的频数等等来区分其影响。可是,虽然因特网、www如此之热,但很少出现在关键词里面。一个热门的关键词有一个爆发周期,爆发周期的长短说明该领域的影响时间。一般来说,关键词在爆发2.4年以后,它在NSF资助名单里爆发。然后4.8年以后NSF成果出现,重新在出版物中爆发。但是,也有特例,数据挖掘和搜索引擎1999年在NSF爆发,到2000年才在ACM爆发。反之,生物信息学2003年在ACM爆发,到2004年才在NSF爆发;语义Web 2004年在ACM爆发,到2006年才在NSF爆发。这说明,NSF的资助强度有时提前、有时滞后。因为美国的科研资助并不止NSF一家,更多的是企业。这种提前与滞后对IEEE更加严重,因为IEEE的科研资助更多地来源于非NSF课题。同时注意到,一个关键词可能在不同的领域爆发。譬如无线传感器网络曾在模拟、安全、集群等爆发期出现。无线传感器网络首先在网络模拟里出现,然后是关于安全的研究,最后是集群算法。类似地,数据挖掘曾在计算科学、Web挖掘、时间序列挖掘和安全领域爆发,所以它比信息检索显得更热。

对于一个领域爆发时段的研究,我们进行趋势分析。从包含一个特定关键词的论文数量的变化,看线性回归趋势线。

2IEEE各领域论文增长趋势


2表明,1990-20102006-2010之间前20名的上升领域和下降领域。这个区别并不大。纵坐标是各领域趋势线的斜率,+为上升,-为下降。总共考虑了40个关键词。1990-2010,算法、数据库、神经网络是计算机科学最频繁出现的科研题目。在1990年代初,用户接口、多媒体出现在许多计算机科学研究领域,而到1990年代末,兴趣移到了Web、信息检索、计算机支持的协同工作。直到2000以后,与各领域有关的是设计、可用性、安全性。2000年代中期,强烈的兴趣在于传感器网络和后来的无线传感器网络。

   从同一作者发表文章的领域可以看出,坚持在人工智能和编程语言上的研究者远比坚持在人机接口和体系结构的研究者要少。做人机交互的人在1990年代主要做接口设计、视觉设计和计算机支持的协同工作,而到2000年代初增加虚拟现实、计算机视觉、人为因素、普适计算,而最后转到社会媒体、机器学习、计算机为媒介的通讯和触摸式用户接口。许多计算机文章把算法作为关键词,而摘要里牵涉到数据库、神经网络、因特网。Web成为数据挖掘、信息检索、和云计算研究的数据源和应用测试床。从2000年起,大部分研究都与因特网有关,虽然因特网概念的引入是在1980年代初TCP/IP标准之后。Web网页从HTMLXML的简单文本发展到语义Web,知识本体,成为人、机信息检索的关键元素。

文章出版的频繁程度反映了学科发展动向,其后就是资助项目的强度。计算机科学的热门课题开始并不一定得到NSF资助,但必须要有资助才能保持研究势头。计算机科学研究者一般几年就会改变研究兴趣,只有少数人才始终坚持在同一领域。

这些论断每一句话都可以在数据里找到。这项研究,工作量巨大,好像应该属于科学计量学(Scientometrics)。百度上说,“科学计量学是应用数理统计和计算技术等数学方法对科学活动的投入(如科研人员、研究经费)、产出(如论文数量、被引数量)和过程(如信息传播、交流网络的形成)进行定量分析,从中找出科学活动规律性的一门科学学分支学科。”在欧洲比较流行,说Scientometrics is the science of measuring andanalysing scienceresearch。这个说法比较确切,其实应该叫科研计量学。因为,科学无量可计,而科学研究可以计量。




https://blog.sciencenet.cn/blog-290937-738805.html

上一篇:科学家和工程师要学编程吗?(131028)
下一篇:谷歌眼镜揭示隐私吗?(131111)
收藏 IP: 159.226.43.*| 热度|

38 许培扬 唐常杰 赵凤光 彭思龙 苏德辰 金小刚 王晓光 苏力宏 李强子 曹裕 陈冬生 赵星 徐晓 武夷山 丁国如 刘锋 赵保明 高建国 张忆文 林怀俊 唐果媛 王涛 周春雷 文克玲 黄式东 高进伟 黄晓磊 罗德海 仲银鹏 王统领 杨宁 张昕尧 李庆祥 章成志 uxinhenry gaoshannankai changtg hmaoi

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 12:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部