黄晓磊(Huang Xiaolei )分享 http://blog.sciencenet.cn/u/book Nature is teacher | 诚实点,简单点,专业点 | 微博:weibo.com/naturethinker

博文

Google时代的科学数据问题 精选

已有 8107 次阅读 2012-2-23 13:14 |个人分类:科学那些事儿|系统分类:科研笔记|关键词:科学数据,Google,物种| google, 科学数据, 物种

Google时代,或者叫搜索时代。在人人都搜索的时代,做研究当然也离不开Google

没有做过调查统计,但好像中国的小学生中学生甚至大学生用百度搜索的会更多。记得有一次,看北京市中学生科技论文,论文中的很多引用来源都是百度百科。在大街上很多时候都能听见说,“百度一下嘛”。但我向来是说“Google一下嘛”。

找学习资料,Google;找最新文献,Google;找导师,Google;找同行,Google;懒得收藏网址,Google;不管遇到啥问题,都来Google。前几天在Powell's City of Books看见一本书,名字叫《Whoogles: Can a Dog Make a Woman Pregnant - And Hundreds of Other Searches That Make You Ask "Who Would Google That?"》。大家确实不管什么问题都去Google

说实话,在平时工作中,没有Google,我会觉得心里不踏实。所以国内很多时候连不上Google,总是忍不住骂几句。

但实际上,搜索时代一个很重要的问题是:(你所检索到的)数据信息质量如何?

举一个专业相关的例子。有时候我们需要检索一个物种名,用Google检索之后会发现有很多条记录,前面几条最相关的记录往往来自一些物种名目数据库。比如,网页A指向维基百科,网页B指向一个欧洲的数据库,网页C指向生命之树(Tree of Life web project)网站,网页D指向生命大百科全书(Encyclopedia of Life),网页E指向Species2000的全球物种名录(Catalogue of Life),网页F指向一个由科学家个人时时更新的某个生物类群的物种名录数据库。

物种名字由分类学家所确定,并且随着时间随着对某个生物类群更多证据的了解,这些名字可能发生变化,比如原来的物种名1现在可能叫物种名2。所以要搞清楚一个物种的名字,很有必要了解其修订的历史。对于上面的例子,会发现维基百科(A)的参考文献是那个欧洲的数据库(B),而欧洲数据库的参考文献是生命之树网站(C);生命大百科全书的网页(D)的参考文献是全球物种名录(E),而全球物种名录的信息来源,指向那个科学家管理的网站(F)。经过分析,你还会发现生命之树网站上那个1995年创建的网页上面的物种名现在已经不成立了,因此ABC三处的信息应该过时了;并且你发现虽然生命大百科全书网页(D)物种名字信息正确,但其他相关信息显然没有更新,而最新的信息,体现在网站F,因为它是科学家时时更新的网站。对于上面的例子,如果把信息的有效性排序,应该是:A < B < C < D < E < F

问题是,如果你只是信息的需求者,不是专门的分类学家,则很难去追踪物种名字的修订历史,有时候难免会使用了并没有及时更新的或者错误的信息(比如你引用了ABC)。这只是一个例子,这样的例子在使用网络检索时很多很多。对于普通大众来说,如何来判断所检索到的信息的准确性呢。在Google时代,这确实是个挺大的问题。本来还想举一个我们国家的例子,想想还是算了,我们国家的很多数据库根本就进不去,一点击,告诉你“找不到文件”、“网页无法打开”。

对于与科学有关的数据库来说,我觉得至少应该做到的两点:一定要保持更新;二手三手的数据库一定要给信息使用者提供最直接的引用或者说数据来源(比如上面例子中的F)。这样做一方面尊重原始的信息所有权,一方面减少二手三手甚至N手信息的传播。对于非原始信息使用者或传播者来说,也要尽量引用最原始的数据来源(但不知道多少能做到)。



http://blog.sciencenet.cn/blog-111883-540573.html

上一篇:情人节的后视镜
下一篇:加州的冬天不太冷

24 曹聪 刘洋 谢鑫 程南飞 李伟钢 黄锦芳 欧阳永长 党晓栋 汪梦雅 蒲生亮 王伟华 唐小卿 李欣海 郑依华 李璐 高建国 黄继红 杨晓虹 程光伟 魏亚清 许培扬 anonymity yunmu ddsers

发表评论 评论 (50 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-20 04:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部