|||
最早接触文献检索,是在读大学的时候,当时选修了情报学专业的一门课,叫做科技文献检索,也就是从那个时候就开始接触SCI了,还学会了BA,CA,还有PA。只到在做本科毕业设计的时候,才知道BA这个东西是那么有用,又是那么无用。一大堆厚厚的影印版BA堆在那里,大多没有人翻过,积满了灰尘,当时就觉得这要浪费多少钱呀,但是大学图书馆又不能不买这些东西,因为有个别人需要用的时候,却又是那么的宝贵。至少当时是帮了我的大忙了。我的本科毕业论文是用英文撰写的,当时还写出了一篇英文论文,投稿SCI刊物(Mutation Research),待我毕业后很长时间,收到指导教师转过来的复印件,审稿者需要补充一个实验,证明培养的细胞没有失活,可惜我的指导教师是日本留学回来的,不会英语,没有看懂这封邮件,最后就超过了编辑给定的期限,只好作罢。不然,我的第一篇SCI论文就应该是在1992年至1993年发表的。多年过去了,也好长时间不到图书馆查文献了,我不知道BA印刷版是否还存在,是否还有人会用这个东西来查询什么?
互联网是一场革命,这大家都知道。网络检索也是一场革命,有雅虎的时候,大家并无太多感觉,有了Google,网络检索革命也就到来了。我刚接触到Google,就被其所吸引,因此在新世纪元年(2001年)的首期《电脑报》上发表了一篇介绍Google的文章:搜索引擎界的革命:Google。不过,那个时候也没有想到其能与学术检索和评价联系起来,只是觉得那是一个互联网信息的检索工具而已。SCI在中国大地的兴起和普及,让Web of Science也很快进入研究人员的手里,并成为一个重要的学术检索工具。
一直觉得SCI这个东西,发表杂志有门槛,引用这篇文章的杂志,是否计入引用次数也有门槛。这究竟是SCI商业垄断呢还是为了保证学术引用的质量,也许二者兼而有之吧。其实,不管作者将文章发表在何处,对于其文章被什么人引用,总是很关心的。如果有一个更全面提供这些信息的检索工具就好了。谷歌学术应该就是在这种需求下出现的吧。它可以在论文、预印本摘要、书籍,甚至发布会海报中查询引用情况。总之,谷歌学术彻底搜索整个互联网,提供了更为完整的信息。据上周Science上的一篇文章介绍,谷歌学术的出现,对研究者的学术搜索(research-seeking)行为有很大的影响。随着谷歌学术的不断发展,目前其对文献纲要的整理完全可以与商业学术搜索资料库Web of Science和Scopus相媲美,而在社会科学和人类学领域甚至做得更好。另外,谷歌是在线期刊中文章的主要推介来源,这远远超过其他任何搜索工具。作为研究人员的学术搜索引擎,谷歌学术提供了可量化所发表作品影响力的引文指标,甚至许多研究人员将这些数字放如其个人简历中。
学术评价是一件非常严肃的事儿,谷歌学术是否能充当学术评价的能力,这显然会引起许多研究人员的关注。一个很明显的事实是:谷歌学术检索的范围覆盖了整个互联网,而不仅仅来自经过相对严格评审的期刊。这一方面体现了其更全面的学术引用情况,但另一方面,由于谷歌学术缺乏管理者,因此其搜索的量化指标就很容易被人操纵。有人对此做过实验,将一些假论文放在网上,并引用其他的文章,数周后,这些文章的被引用数显著上升。因此,谷歌学术在对引文指标的分析中,是否有能力检测欺诈行为,就是一个重要的问题。但谷歌似乎对此非常自信,他们认为有些批评人士夸大了这一问题。使引文分析数据出现偏差的固然可称为“垃圾信息”,到目前为止,学术文章中垃圾信息的数量并不算太高。学术界对操纵数据的学术骗子应该有一定的社会规范来进行惩罚,并说谷歌有抑制这种情况产生的特殊算法,但涉及到核心搜索引擎方面的技术问题,因此并没有透露。谷歌学术等进入学术搜索领域必将会使汤森路透和爱思唯尔的日子很难过。不过,这样的竞争,对科学家是有好处的,科学家不用只依赖一个服务而有更多选择了。以前有传言谷歌将淡化并解散学术搜索团队的说法似乎不靠谱,因为这个团队事实上正在扩大。因此,总的来看,谷歌学术是一个非常棒的服务,使得影响力的评价比以往任何时候都更加透明。这也是一个发展中的工具,未来应该开发更加精细的引文分析模型,但谷歌似乎正在致力于通过网络创造条件让全球科学家之间的交互和协作。
这篇文章引发了人们对谷歌等机器产生的引文指标的问题。但是其实这种对引文指标的操纵即使对人类监管的指标也可能产生,影响因子也可通过鼓励某些引用操作而获得,如1)具有相同观点同行的引用可导致某一学派的学术重要性畸形偏高;2)编辑可通过某些方式引导作者引用该杂志的文章以提高期刊影响因子。在对Science这篇文章的评论中,有些人的说法也非常有道理。比如,有人认为,谷歌学术中的垃圾就像大数据的噪音,随着更多人的使用,其严重性会随之降低,最后只需很少的后处理这种噪音就可忽略了。群众的智慧用于科学评价似乎是合理的,特别是可考虑科学和教育在市场中漂移问题的评价。显然,学术检索中垃圾信息的情形,对于上述个别情况的比较来说,可能是个问题,但也很容易解决,如去掉自引。此外,当谷歌学术比较众多数据时,其数值可能不会偏离太远,因为包含大量的垃圾的引用一定非常明显并容易被人们所发现。另外,从技术上讲,也是可以纠正这些垃圾的,文章影响力的排序除了引文数量之外,还有这些引文本身的来源问题,这一点通过谷歌强大的搜索能力是完全可以做到的。
有评论者还提供了一个数据分析,非常有意思。一个经典的集合理论公式为:
N(A OR B) = N(A) + N(B) – N(A AND B) 。
在检索中,交集大小如何计算?其实,在谷歌中是无法区分AND操作和AND NOT操作的,但二者显然差别是非常大的,一个是包含,一个是排除。web of sciecne(WOS)显然要做得好一些。比较下面这个例子:
A = fermentation; B = submerged
搜索引擎 | A OR B | A | B | A AND B | 计算值 | 误差 |
谷歌网页检索 | 31.2M | 7.80 M | 6.3 M | 0.556 M | 13.54M | -56.6% |
谷歌学术检索 | 1.79 M | 1.9 M | 1.04 M | .0848 M | 2.855 M | +59.5% |
WOS | 107.8K | 81.85K | 28.709 | 2.425 K | 108.129 | +0.30% |
并集的结果比最后的计算值要差很多,特别是传统的谷歌检索几乎增加了近一个数量级。相比而言,Web of Science 的偏差很小。
参考资料:
John Bohannon. Google Scholar Wins Raves—But Can It Be Trusted? Science 2014-01-03.
http://comments.sciencemag.org/content/10.1126/science.343.6166.14
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 21:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社