||
生物标本馆的数字化
陈华燕
在《生物标本馆:一座神秘的宝库》(科技导报:http://www.kjdb.org/CN/abstract/abstract14547.shtml)一文中我介绍了了生物标本馆的重要性,而这些重要性是基于生物标本本身带有很多重要的数据。这些数据包括标本的采集地点,时间和生境等。全世界约有5000个生物标本馆,馆藏着数以亿计的生物标本,这些标本几乎包含所有的分类单元的地理分布和时间的海量数据,为我们提供了各种生物的原始地理分布以及它们的分布随着时间变化的唯一大尺度的、可证实的信息。各类生物的分布变化会对自然环境和人类福祉产生深刻的影响。例如,由生物入侵、气候变化或其它环境动态造成生物群落的变化会直接影响水和食物的供应、气候和疾病的管理、营养物质循环和作物传粉等等。获取这些生物多样性变化数据的重要性将随着这些变化造成经济影响的显现而变得更显著。然而,这些标本以及这些标本带有的信息往往只有这些标本馆的研究人员能够获取。其它单位的研究人员如果希望检视这些标本,也必须是本人亲自到达标本所在的单位或者通过借用。但是借用需要昂贵的费用和繁琐的邮寄过程,而且标本容易在邮寄过程中被损坏。那如何有效的开放这些标本并开发这些标本带有的数据呢?在这个人人都讲大数据的时代,生物标本馆也不能例外,将标本信息数字化并在线开放将是生物标本馆充分发挥其作用的必然趋势。
标本信息的数字化涉及标本各方面数据的获取、存储、分析和传播。这个过程通常包含数据库的建立、标本采集地的定位和标本影像的创建。数据库把亿万个标本的分类单元、采集地点和采集时间信息创建成容易检索的数字化形态。把这些数据库在线开放后,我们能够在任何时间任何地点快速获取某个标本馆大量的标本信息,而且不再受标本馆所在的位置和开放时间的限制。标本采集地点的定位会加速环境变化的绘制和分析。例如,通过查看某个类群不同时期在地图上的分布,可以分析这个类群与环境变化的关系。标本影像的创建不仅可以加快科学家的研究发现,还可以为教育工作者和普通公众提供有价值的学习材料。例如,随着标本尤其是当初描述报道新物种时依据的模式标本信息以及标本高清照片的在线开放,分类学家逐渐减少借用标本的需要,这会极大加快发现和描述新物种的速度。同样,标本信息和标本高清照片的在线开放使得非分类学者如生态学家和其他研究野生动植物的学者也能够准确的鉴定物种。另外,高清的标本照片为教育工作者和普通公众提供了最直观的学习材料。
目前,很多生物标本馆都建有自己的数据库,甚至有集合世界范围内数据库的数据库网,如全球生物多样性信息机构(Global Biodiversity Information Facility,GBIF)。但工作原理大同小异,基本包括标本标签,目录,高清照片和其它媒体文件,遗传信息和田间记录等信息的数字化,数据库的录入和数据库的检索等过程。下面,笔者将以俄亥俄州立大学生物多样性标本馆的数据库膜翅目在线(Hymenoptera Online (HOL))为例来介绍如何将一个标本的信息保存到数据库中并如何使用数据库。如图1所示,膜翅目在线数据库由3个子数据库构成:文本数据库,照片数据库和DNA序列数据库。文本数据库由各种数据表格构成,主要存储标本的标签信息,包括采集标签和鉴定标签。采集标签记录标本采集地的经纬度和地名,采集地的生境,采集时间,采集人,和采集方法等;鉴定标签记录标本的物种鉴定结果和鉴定人。标签信息在录入数据表格的时候,同时记录标本的保存地和添加二维码编号。二维码编号可以保证每个标本都是独一无二的,同时方便标本信息后续的编辑和检索。照片数据库主要存储标本的各种照片,尤其是各个部位的鉴定特征图。照片在存入数据库的时候是与标本的二维码编号相关联的,即在照片数据库中检索某个标本的二维码编号时,不仅可以显示该标本的照片,还可以通过二维码编号链接到文本数据库以进一步显示该标本的采集标签信息和鉴定标签信息。DNA序列数据库主要存储标本的遗传信息,即该标本的各种遗传标记的DNA序列。同样,DNA序列在存入数据库的时候也是与标本的二维码编号相关联,在检索时可以链接到文本数据库读取标签信息。3个子数据库相互关联整合后一起存入膜翅目在线数据库,这时在膜翅目在线数据库检索某个标本的二维码编号时,就会显示有关这个标标本所有的信息,包括各种标签信息,标本照片,和遗传标记的DNA序列等。例如,图2是以标本二维码编号为OSUC 372841在数据库检索后显示的页面,信息包括标本的采集信息,鉴定信息和标本照片,即该标本存入数据库所有的信息。除了可以用二维码编号检索外,还可以用采集地,采集人,物种分类阶元,保存地,鉴定人等关键词来检索。另外,图2中显示的红色字体都带有超链接,即这些关键词都可以用来检索。例如,二维码编号为OSUC 372841的标本隶属于Trichacis这个属,现在以属名Trichacis来检索,图3显示的是检索结果。这个检索结果包含的信息就更多了,即关于这个属的所有保存在数据库的信息都可以显示出来。值得一提的是,这个数据库本身还带有统计分析功能,例如,在Graphs这个条目下,可以生成物种的物候现象(物种在各年月的发生动态),图4显示的是Trichacis这个属历年来在各个月份的采集情况。当然,这个数据库还有很多其它功能,在这里就不一一介绍了,感兴趣的读者可以自己尝试一下。
图1. 膜翅目在线数据库的工作流程
图2二维码编号为OSUC 372841的标本在膜翅目在线数据库检索的结果
图3以属名Trichacis在膜翅目在线数据库检索的结果
图4 Trichacis在膜翅目在线数据库检索显示的各个月份采集情况
目前,数据库的建立可以使生物标本馆的标本信息更易于获取,但是,数据库的建立也不是没有挑战的。首先,任何一个大型的生物标本馆动辄就保存有上百万个标本,仅仅数字化这些标本的标签就需要巨大的人力和资金的投入,而对这些标本做出正确的物种鉴定则需要更多的专业人员的精力投入。其次,由于数量的巨大和不可避免的人为失误,标本信息在数字化的过程中常常会出现错误。笔者最近在美国丹佛参加北美昆虫学年会时听了很多关于标本馆数字化的报告,普遍被提到的一个问题就是标签信息的转录错误,例如,有学者发现他们的数据中出现了上百万条重复数据;而有的学者发现有些标本的经纬度显示在了该物种不可能出现的地点,如有些陆生昆虫出现在了海洋上。计算机科学上有个著名的说法:garbage in, garbage out(垃圾进,垃圾出),这个说法同样适用于生物标本馆数据库的建立。数据库的价值并不在数据库本身,而在于数据的正确性,所以标本信息在数字化的过程中如何保证信息的准确录入以及发现错误后如何纠错才是建立一个好的数据库的关键。
随着成万上亿个标本信息的数字化,这些数据正在逐渐形成生物学上最大的大数据。目前,GBIF已收录全球大约一半的已知物种的数据,而且有更多物种的数据正在被快速的收录。根据这些海量的数据,科学家们可以探究生物学上最根本的问题:地球上都有哪些物种?这些物种是如何变异的?物种在地理和生态空间上是如何分布的?地球上的生命是如何进化的?是什么因素导致物种的分化、扩散和灭绝的?生物标本馆里的标本蕴含的数据将为回答这些问题提供依据。
(注:关于膜翅目在线数据库的使用,国内的网络在没有VPN的情况下,这个数据库的很多功能无法显示或使用。另外,给自己打个广告,本人即将博士毕业,有意回国建立中文版本的数据库,已初步和我的博士生导师Norman Johnson教授达成共识,他将支持我建立中文版本的数据库并与他现有的数据库互联,实现数据共享。目前,我们已开始为我的母校华南农业大学的膜翅目标本打印二维码标签,而且事实上,我在硕士阶研究过的标本已录入膜翅目在线数据库。不久,会有更多的中国标本信息可以被全世界的人检索到。欢迎有意向合作的学者加盟!)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社