|||
自从选择做生物信息以来,不断有人找我算数据,其中不乏一些知名学者和博导还有他们的学生们。算过的数据类型也五花八门,从标记设计到同源序列比对,从蛋白结构预测到芯片数据分析。所涉猎的物种也从模式植物(水稻,拟南芥等)到粮食作物(小麦,玉米等),从细菌、微生物到昆虫和动物(稻瘟病、土壤微生物、果蝇、鸡瘟等等)。在不少科研人员看来,虽然做了大量的分子试验,也得到一些数据,但是没有生物信息的分析,整个科研就少了画龙点睛之笔。
那么生物信息学到底是什么样的呢?是不是传统认为的“生物+计算机+数学”呢?能不能用浅显易懂的话,说明一下什么是生物信息学呢?
好吧,我们先看看百度给出的答案:(常言道:外事不决问谷歌,内事不决问百度。^_^这都哪里的常言哦。)
中文名称:
生物信息学
英文名称:
bioinformatics
定义1:
综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
定义2:
运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。
定义3:
运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(引自http://baike.baidu.com/view/7303.htm)
看完了,是不是还是一头雾水?那么,好吧,我们把生物信息学解剖一下(要动手术啦,快来围观哦^_^),生物信息学无外乎就是“非常3+1”(声明:和李咏没有关系^_^)。“3”是数据库,软件,算法;额外再加的“1”就是编程语言。
数据库(Databases):“巧妇难为无米之炊”,要做信息分析,数据库是数据材料的主要来源(除了公开数据库资源之外,不少牛实验室都有自己的试验所得的大量的数据)。数据库网站海了去了,除了耳熟能详的三大数据库(NCBI:http://www.ncbi.nlm.nih.gov/,DDBJ:http://www.ddbj.nig.ac.jp/,EMBL:http://www.ebi.ac.uk/)之外,每年都会有大量的新数据库出现。这里举个例子:每年NAR(Nucleic Acids Research)都会出版一期专门关于数据库的专刊(2011年的专刊地址http://nar.oxfordjournals.org/content/39/suppl_1)。
软件(Software):“工欲善其事,必先利其器”,有了数据了,拿什么来分析?软件。例如,经典的序列比对软件Blast(http://blast.ncbi.nlm.nih.gov/Blast.cgi),多序列联配软件Clustalw(http://www.genome.jp/tools/clustalw/),系统发育树构建软件Mega5(http://www.megasoftware.net/)等等。目的不同所用的工具也就不同,而且关于生物信息分析的软件也是非常多,就同一类型的软件也有很多,这里不再举例。
算法(Algorithm):“万丈高楼平地起”,生物信息学中的数据库和软件都是基于一定的算法来架构的。举个例子来说,假设联配两条序列:ATGCCGTA和ATGGCGTG。先制定游戏规则:两者匹配打0分(例如A-A,T-T),两者之间有空格打1分(例如C-gap),两者错配打2分(例如C-G),那么联配的可能结果有:
情况一:有错配
ATGCCGTA
ATGGCGTG
00020002 (打分情况)打分总和为4
情况二:引入gap(空位)
ATG CCGTA
ATGG CGT G
0001100011 (打分情况)打分总和也为4
基于刚才的游戏规则,那么打分越高说明匹配的效果越低(当然这个打分高低与序列长短有关系,这里不提)。这是仅有8个碱基的序列,如果序列有几Kb或者更长,那么该什么地方加空,什么地方错配呢?哪种方法是最优化的呢?这就是算法,一个例子而已。算法相关的内容不少,这里不展开叙述,感兴趣的可以去看曹同成老师的《生物信息学算法与实践讲义》或樊龙江老师的《生物信息学札记》(第三版)(因为这两本,网络上都有电子版的,免费的哦^_^,怎么找?哦,百度一下就看到了。好吧,方便大家阅读,在本文最后附上这两本电子书链接地址)。
以上三部分,构成了整个生物信息学的主体,而且相关的教程和书籍也非常多(相关书籍详情请参见精品课程相关网站),就不再详细展开叙述。
编程语言(Programming Languages):“磨刀不误砍柴工”,学点编程语言对做生物信息来说,是如虎添翼哦,对于纯做生物信息的,学语言,那是“必须的”。这里的编程语言包括两个方面一个是计算机平台(windows,linux,unix等等),一个是计算机语言(java,C++,python,Perl等等)。有了这些计算机语言的支撑,生物信息学才算是完整的。接下来的帖子中,笔者尤其要探讨的是Perl语言,这应该是生物信息学必学语言,在绝大多数的生物信息学书籍中把这一部分给省略了。
到此,生物信息学的全部内容就说完了,这么简单?是的,就这么简单,“非常3+1”而已。学习了这4部分,生物信息就入门了。那么做生物信息的终极目的是干什么呢?难道就是为了了解几个数据库,学几个软件,做一些算法?当然不止这些,生物信息学的终极目的就是:给出一个合理的生物学解释!做了大量的分子试验,获得了N多的数据,也用了生物信息分析了,最后,要把这个科学故事(story)讲的完整,给出一个合理的生物学解释。那么,这样看的话,生物信息学就是一个工具。对,它就是个工具!方便试验开展的工具,试验结果分析的工具,方便发表文章的工具,发表高水平文章的工具,可以说:它就是贯穿整个分子研究的必备工具。
PS:相关实用链接
电子书籍:
樊龙江《生物信息学札记》(第三版)2010年1月
http://ibi.cqupt.edu.cn/download/bioinformatics/%E6%A8%8A%E9%BE%99%E6%B1%9F+%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6+%EF%BC%88%E7%AC%AC%E4%B8%89%E7%89%88%EF%BC%89.pdf
曹同成《生物信息学算法与实践讲义》2005年
http://www.sciencetimes.com.cn/upload/blog/file/2010/8/201085202046634460.pdf
生物信息学精品课程网址:
湖南农业大学http://www.hunau.net/ec/C240/zccs.htm
西南交通大学http://jpkc.swjtu.edu.cn/C54/zjjs-3.htm
华中农业大学http://nhjy.hzau.edu.cn/kech/swxxx/jxdg/
浙江大学http://www.cls.zju.edu.cn/sub/classroom/bioinformatics/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 15:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社