沧海一粟分享 http://blog.sciencenet.cn/u/ourfort

博文

《生物信息学》是个什么玩意?--入门篇

已有 10815 次阅读 2011-10-9 21:07 |个人分类:教学|系统分类:教学心得| 生物信息学

自从选择做生物信息以来,不断有人找我算数据,其中不乏一些知名学者和博导还有他们的学生们。算过的数据类型也五花八门,从标记设计到同源序列比对,从蛋白结构预测到芯片数据分析。所涉猎的物种也从模式植物(水稻,拟南芥等)到粮食作物(小麦,玉米等),从细菌、微生物到昆虫和动物(稻瘟病、土壤微生物、果蝇、鸡瘟等等)。在不少科研人员看来,虽然做了大量的分子试验,也得到一些数据,但是没有生物信息的分析,整个科研就少了画龙点睛之笔。

那么生物信息学到底是什么样的呢?是不是传统认为的生物+计算机+数学呢?能不能用浅显易懂的话,说明一下什么是生物信息学呢?

好吧,我们先看看百度给出的答案:(常言道:外事不决问谷歌,内事不决问百度。^_^这都哪里的常言哦。)

中文名称:

生物信息学

英文名称:

bioinformatics

定义1

综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

定义2

运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

定义3

运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(引自http://baike.baidu.com/view/7303.htm

看完了,是不是还是一头雾水?那么,好吧,我们把生物信息学解剖一下(要动手术啦,快来围观哦^_^),生物信息学无外乎就是“非常3+1(声明:和李咏没有关系^_^)。3是数据库,软件,算法;额外再加的1就是编程语言。

数据库(Databases):“巧妇难为无米之炊”,要做信息分析,数据库是数据材料的主要来源(除了公开数据库资源之外,不少牛实验室都有自己的试验所得的大量的数据)。数据库网站海了去了,除了耳熟能详的三大数据库(NCBIhttp://www.ncbi.nlm.nih.gov/DDBJhttp://www.ddbj.nig.ac.jp/EMBLhttp://www.ebi.ac.uk/)之外,每年都会有大量的新数据库出现。这里举个例子:每年NARNucleic Acids Research)都会出版一期专门关于数据库的专刊(2011年的专刊地址http://nar.oxfordjournals.org/content/39/suppl_1)。

软件(Software):“工欲善其事,必先利其器”,有了数据了,拿什么来分析?软件。例如,经典的序列比对软件Blasthttp://blast.ncbi.nlm.nih.gov/Blast.cgi),多序列联配软件Clustalwhttp://www.genome.jp/tools/clustalw/),系统发育树构建软件Mega5http://www.megasoftware.net/)等等。目的不同所用的工具也就不同,而且关于生物信息分析的软件也是非常多,就同一类型的软件也有很多,这里不再举例。

算法(Algorithm):“万丈高楼平地起”,生物信息学中的数据库和软件都是基于一定的算法来架构的。举个例子来说,假设联配两条序列:ATGCCGTAATGGCGTG。先制定游戏规则:两者匹配打0分(例如A-AT-T),两者之间有空格打1分(例如C-gap),两者错配打2分(例如C-G),那么联配的可能结果有:

情况一:有错配

ATGCCGTA

 

ATGGCGTG

00020002 (打分情况)打分总和为4

情况二:引入gap(空位)

ATG CCGTA

 

ATGG CGT G

0001100011 (打分情况)打分总和也为4

基于刚才的游戏规则,那么打分越高说明匹配的效果越低(当然这个打分高低与序列长短有关系,这里不提)。这是仅有8个碱基的序列,如果序列有几Kb或者更长,那么该什么地方加空,什么地方错配呢?哪种方法是最优化的呢?这就是算法,一个例子而已。算法相关的内容不少,这里不展开叙述,感兴趣的可以去看曹同成老师的《生物信息学算法与实践讲义》或樊龙江老师的《生物信息学札记》(第三版)(因为这两本,网络上都有电子版的,免费的哦^_^,怎么找?哦,百度一下就看到了。好吧,方便大家阅读,在本文最后附上这两本电子书链接地址)。

以上三部分,构成了整个生物信息学的主体,而且相关的教程和书籍也非常多(相关书籍详情请参见精品课程相关网站),就不再详细展开叙述。

编程语言(Programming Languages):“磨刀不误砍柴工”,学点编程语言对做生物信息来说,是如虎添翼哦,对于纯做生物信息的,学语言,那是“必须的”。这里的编程语言包括两个方面一个是计算机平台(windowslinuxunix等等),一个是计算机语言(javaC++pythonPerl等等)。有了这些计算机语言的支撑,生物信息学才算是完整的。接下来的帖子中,笔者尤其要探讨的是Perl语言,这应该是生物信息学必学语言,在绝大多数的生物信息学书籍中把这一部分给省略了。

到此,生物信息学的全部内容就说完了,这么简单?是的,就这么简单,“非常3+1而已。学习了这4部分,生物信息就入门了。那么做生物信息的终极目的是干什么呢?难道就是为了了解几个数据库,学几个软件,做一些算法?当然不止这些,生物信息学的终极目的就是:给出一个合理的生物学解释!做了大量的分子试验,获得了N多的数据,也用了生物信息分析了,最后,要把这个科学故事(story)讲的完整,给出一个合理的生物学解释。那么,这样看的话,生物信息学就是一个工具。对,它就是个工具!方便试验开展的工具,试验结果分析的工具,方便发表文章的工具,发表高水平文章的工具,可以说:它就是贯穿整个分子研究的必备工具

PS:相关实用链接

电子书籍:

樊龙江《生物信息学札记》(第三版)20101

http://ibi.cqupt.edu.cn/download/bioinformatics/%E6%A8%8A%E9%BE%99%E6%B1%9F+%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6+%EF%BC%88%E7%AC%AC%E4%B8%89%E7%89%88%EF%BC%89.pdf

曹同成《生物信息学算法与实践讲义》2005

http://www.sciencetimes.com.cn/upload/blog/file/2010/8/201085202046634460.pdf

生物信息学精品课程网址:

湖南农业大学http://www.hunau.net/ec/C240/zccs.htm

西南交通大学http://jpkc.swjtu.edu.cn/C54/zjjs-3.htm

华中农业大学http://nhjy.hzau.edu.cn/kech/swxxx/jxdg/

浙江大学http://www.cls.zju.edu.cn/sub/classroom/bioinformatics/

 

 



https://blog.sciencenet.cn/blog-4015-494975.html


收藏 IP: 164.125.34.*| 热度|

4 肖重发 王晓强 董志刚 王丽娜

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-8-8 05:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部