|
以下摘抄自樊龙江老师的《生物信息学》(第三、四版),略有删改。
生物信息学是统计学和计算机科学在分子生物学领域应用的一门学科。生物信息学最初的使用始于上世纪八十年代的晚期,主要集中在基因组学和遗传学领域,特别是基因组DNA大规模测序出现后。生物信息学的根本目标是增加对生物学过程的认识,具体而言,它更加注重发展和应用有效的计算方法(如模式识别、数据发掘、机器学习算法和可视化技术)来达到这一目标。目前该学科主要的研究领域包括序列联配、基因预测、基因组拼接、药物设计和筛选、蛋白质结构预测、基因表达和蛋白质互作预测、全基因组连锁和进化分析等.
正确认识和理解生物信息学这门新学科非常重要,它有助于该学科的科学研究和学习。《Bioinformatics》杂志的一篇社论文章(2000,vol 16,no.3,其翻译稿见庞洪泉和樊龙江,生物技术通报,2002,2:47-52),评析了人们对生物信息学的一些不正确的认识:
(1) “人人可以从事生物信息学研究”。这一认识的根源来自对生物信息学的两个误解,一是生物信息学研究不需大量经费投入,因为有如此多的数据资源,只要找本生物学教科书,有台电脑并连到国际网上,人人可以从事生物信息学研究;二是生物信息学的软件是免费的。殊不知生物信息的巨量特征目前向计算机提出了严峻的考验,而一台大型新型计算机可能要以千万甚至亿元计算,同时大量先进、最新的生物信息学分析软件包都是商业化产品,不付钱难以得到;
(2) “你最终还是需要具体的实验”。实验生物学家非常羡慕生物信息学家,认为“他们只是敲敲键盘,然后便是写论文”,他们的研究结果只是一种试验结果的预测,是对实验研究的一种“支持”。在分子生物学研究中,固定的模式应是先有某一假设,然后用某一实验去验证或支持这一最初的猜测。在生物信息学研究中,也同样进行着这一模式:有一无效假设(例如某一序列在数据库中没有同源序列),然后进行实验(如搜索数据库)并验证,拒绝或接受无效假设(如该序列的确有或无同源序列)。这是一个标准的假设—实验模式。在其它学科中,计算科学已被作为深入理解科学问题的重要手段,而在生物学领域还没有形成这样的共识;
(3) “生物信息学是门新技术,但只是一门技术而已”。由此把生物信息学定位为一门新的应用学科。正如前面所说,虽然生物信息学是一门新学科,但在60-70年代,该学科最重要的一些算法便已被提出,生物计算和理论研究便形成雏形。把生物信息学仅仅作为一门应用技术,是从信息学移植来的技术应用于生物学科领域,这是一个致命的误解。生物信息学实际是一门充满丰富知识内涵的学科,它有很多尚待解决的科学问题。这些问题包括生物学方面的(如分子的功能如何进化)和计算方面的(如数据库系统间如何最有效地协同)。生物信息学不仅仅是一个技术平台,它同样需要周详的实验计划和准确的操作,同样需要丰富的想象和一瞬即逝的运气。
生物信息学的基石——数据库
生物信息学作为一个组合学科,需要有多方面的数据资源。生物信息学研究的一个核心问题是数据库的开发。生物信息学涉及的数据库可大致分为两种:初级数据库(primary database)和二级数据库(secondary database)。初级数据库贮存原始的生物数据,如DNA序列,蛋白质序列,由晶体衍射(Crystallography)获得的蛋白质结构等。二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如功能区(domain)、二级结构、疏水位点等数据。
1. DNA数据库
DNA序列构成了初级数据库的主体部分。目前国际上有3个主要的DNA序列公共数据库:欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL),位于英国剑桥;GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI),隶属于美国国家医学图书馆,位于美国国家卫生研究院(NIH)内];日本DNA数据库(DNA Databank of Japan,DDBJ)。这3 个大型数据库于1988年达成协议,组成合作联合体,统一了DNA序列记录标准,每天交换信息。各个机构负责收集相应地区的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等),共同享有并向世界开放,这3个数据库又被称为公共序列数据库(Public Sequence Database)。
2. 基因组数据库
主要源自各种基因组计划。
3. 蛋白质序列数据库
SWISS-PROT、TREMBL和PIR是主要的蛋白质序列数据库。
SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间,因此SWISS-PROT的数据存在一个滞后问题,一大批含有开放阅读框(ORF)的DNA序列尚未列入SWISS-PROT。
为了解决这一问题,TREMBL(Translated EMBL)被建立了起来,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但注释质量相应下降。
PIR数据库由美国国家生物技术信息中心(NCBI)建立,翻译自GenBank的DNA序列。PIR根据注释程度(质量)分为4个等级,如下表:
分类名称 (name) | 说明 (comment) | 记录数(Release 80) (number of entries) |
PIR1 | 分类并注释(classified and annotated) | 20685 |
PIR2 | 注释(annotated) | 262300 |
PIR3 | 未核实(unverified) | 24 |
PIR4 | 未翻译(unencoded or untranslated) | 407 |
4. 蛋白质结构数据库
PDB是国际上主要的蛋白质结构数据库,贮存有由X射线和核磁共振确定的结构数据。
NRL-3D 数据库可以进行与已知结构的蛋白质序列的比较。
同源的蛋白质序列很有可能具有相同的三维结构,HSSP(homology-derived structures of proteins)数据库根据同源性给出了SWISS-PROT数据库中所有蛋白质序列最有可能的三维结构。
SCOP(Structural classification of proteins)数据库对已知结构蛋白质进行等级分类,可以比较某一蛋白质与已知结构蛋白的结构相似性。
CATH是与SCOP 类似的一个数据库。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-30 02:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社