zhuchaodong的个人博客分享 http://blog.sciencenet.cn/u/zhuchaodong

博文

我研究组Systematic Biology在线发表面向DNA数据库物种界定规程

已有 3988 次阅读 2014-2-3 22:46 |个人分类:论文简介|系统分类:科研笔记|关键词:分子分类学,,昆虫系统学,,物种界定,MOTU,L×S矩阵,Systematic,Biology,昆虫纲| 昆虫系统学, 分子分类学, 物种界定, MOTU, L×S矩阵

论文在线发表,引用信息如下:

      A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta.

      Douglas Chesters; Chao-Dong Zhu
      Systematic Biology 2014;
      doi: 10.1093/sysbio/syu038

论文全文下载:

相关数据:

http://datadryad.org/resource/doi:10.5061/dryad.k7t50

论文在线发表:

Abstract:

http://sysbio.oxfordjournals.org/cgi/content/abstract/syu038?ijkey=tS8O8zuszBKwUul&keytype=ref

PDF:

http://sysbio.oxfordjournals.org/cgi/reprint/syu038?ijkey=tS8O8zuszBKwUul&keytype=ref

     网站:

      phylolab.ioz.ac.cn

     软件链接:

      1、Automated taxonomic identification of Apoidea (bee) DNA sequences

       2、Multi-Gene DNA Barcoding for Arthropods (beta)

介绍

   大量DNA条形码数据为实现快速物种界定提供了可能性,也带来了两个问题:1)基于单个位点信息的物种界定是否可靠?2)依据公共数据库信息,实现物种界定的可靠性有多高?

   MEE论文(http://onlinelibrary.wiley.com/doi/10.1111/2041-210X.12104/abstract)解决了多基因物种界定的全局参数优化问题。我们在提交MEE论文的前一天,也向另外一个专业杂志,Systematic Biology 提交了另外一篇论文。该论文最早的想法:飞速发展的测序技术至今测定了多少物种?公共数据库中有多少具有物种水平分类学信息的序列?这些分类学信息是否真实反映了物种界限?在无法完成形态分类学验证的情况下,如何基于多基因片段的信息,为无标记序列提供并验证物种分类信息?

   为了实现上述想法,Douglas Chesters博士开发并测试了一套流程,把MEE论文的方法从蜜蜂总科进一步推广到昆虫纲,从少数几个基因片段推广到n个,以期获得更加普遍而可靠的结论。经过审稿人、编辑、副主编和主编的3轮密集审阅,我们收获了很多建设性的建议和想法,并规划了下一步工作。

公共DNA数据库中昆虫物种界定规程

公共DNA数据库中包含很多生物类群,为系统学研究提供了大量数据来源。目前,基于分子数据的物种鉴别和界定工作已经逐步开展。现代测序技术的飞速发展,带来了海量分子数据的同时,也导致很多研究人员无法为相关数据提供准确的分类学信息。这些分类信息不够完整的分子数据,阻碍了在物种一级水平上开展精细的数据挖掘。同时,基于较大数据库进行物种聚类研究,也需要整合多个基因片段,从而在数据结构和计算过程中产生了很多问题。

作者研发了一种在分子序列数据库中界定物种的方法:

1)       首先获取所有昆虫的DNA序列,并对它们进行文本加工;

2)       根据一定的规则过滤掉重复数据;

3)       划分遗传位点L

4)       根据每个位点信息,界定物种S

5)       物种单元与位点相匹配,形成一组多位点物种界定的数据矩阵L×S

作者应用马尔科夫聚类的方法将数据库划分为同源基因片段数据集。基于包含大部分物种多样性的基因,完成物种鉴定,并同时对物种单元名字赋予物种名。在物种聚类过程中,两两相似之处计算的复杂性的主要来源于线粒体基因组中的COI位点。自主研发的软件解决了这个复杂的过程:在分类的体系内执行序列两两比对,且为不同阶元的序列标注分类信息。

该工作研究了GenBank中超过24个不同同源基因,194000个未带分类标签的序列,包含41 525个带分类标签的物种(98.7%从昆虫数据库中获得)。通过对每个位点的分层聚类,利用独立的最优参数,这些序列被分组到59173个基于单个位点的分子分类单元(MOTU)中。来自不同位点的MOTU,由多部匹配算法进行匹配。这样,位点之间形成不一致性最低的多位点单元。匹配后,我们发现了在目前的昆虫数据库中,存在78091个基于多位点信息的MOTU。其中,38 574个单元包含物种分类学信息,而34 891个则没有包含物种分类标签

除了可以估算物种多样性,我们开发的规程还将促进现代序列数据集的物种界定。特别是L×S矩阵代表了后分类学思路,将可以解构种级元基因组数据。这些方法将可以在多个基因位点,甚至基因组水平提取大量数据,产生更多研究物种多样性的L×S矩阵,从而整合到后续的系统发育的流程。

上述研究成果,已经被Systematic Biology接收:

17-Jan-2013          Submitted            

18-Apr-2013          Reject; resubmission encouraged

08-Aug-2013         Resubmission

21-Nov-2013         Accept with major revisions

06-Jan-2014         Resubmission of R1

14-Apr-2014         Accept with minor revision

19-Apr-2014         Resubmission of R2

28-Apr-2014         Accept pending receipt of final changes

29-Apr-2014         Resubmission of R3

10-May-2014        Accept, Production Checklist

11-June-2014         Awaiting Assignment to Batch

15-June-2014        Published on-line






http://blog.sciencenet.cn/blog-536560-764327.html

上一篇:[转载]动物进化与系统学院重点实验室人才招聘
下一篇:[转载]江城子 - 甲午春早

2 张珑 戴小华

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-11-16 17:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部