mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

在线使用乌尔图基因组

已有 4880 次阅读 2018-5-21 12:03 |系统分类:科研笔记

在线使用乌尔图基因组

作者:Neal

群里们有一次讨论过春小麦和冬小麦的问题,包括我们宋老师也专门介绍了春小麦和冬小麦在育种上的一些应用,其中有一点印象特别深,“强春性小麦品种有着宽广的生态适应性”,这一习性的直接应用就是前面我们一直再提的speed breeding。在一次普通的聊天过程中,胖丫问我:"师兄,你说是先有的冬小麦还是先有的春小麦?"对于这个先有鸡还是先有蛋的问题,其实我也不会,我不知道啥地方有确凿的证据。但是,作为师兄,总不能上来就说不会吧,我还是装模作样,貌似头头是道的分析了一遍,最后的结论就是,这个问题很高深,还需要进一步的科学研究。所以,各位亲爱的小伙伴,如果就这个话题你有自己的看法,欢迎留言和我们分享。

好,下面咱们言归正传,转到乌拉尔图小麦基因组上。上周,我们中国小麦届真的是刷了一把存在感,很多不做小麦但知道我做小麦的亲朋好友,将一条央视报道乌尔图基因组的新闻转发给我们,有点受宠若惊的感觉,虽然那不属于我,但作为一个研究小麦的人还是由衷的高兴。为了更方便的让大家使用这个基因组,我们在以下几个方面做了努力,下面一一介绍给大家。

1 乌拉尔图小麦基因组在线blast

这一点,在这篇nature文章还未正式在线时,我们就已经将该基因组放到网站上了,可以参考下我们前几天的推送,乌尔图基因组(A基因组)序列释放

2 调取乌拉尔图小麦基因组序列

关于调取序列这部分我们前面也正式介绍过小麦族多组学数据网站——序列获取,只不过我们将乌拉尔图小麦的基因组、基因和蛋白序列可放上来了,这样大家就可以调取染色体某一区间的基因组序列,根据基因的名字调取基因序列很蛋白序列。乌拉尔图小麦的基因名字类似下面的形式,“TuG1812G0100001942.01.T01”, Tu, 代表乌拉尔图小麦;G1812代表一个编号为G1812的乌尔图小麦材料;G01,表示1号染色体,即1A;00001942代表基因的编号;第一个点后面的01可能表示版本号(需要再确认),也即注释的第一个版本。最后T01表示转录本的编号。这里有两个要注意的地方,这个基因对应的蛋白序列的编号是TuG1812G0100001942.01.P01,也即将T换成P,这一点在序列调取是要特别注意,不然会找不到序列。第二点要注意的是,相邻基因间的编号不是以熟知的10为单位,而是以1为单位变化。比如,我们前面提到的这个基因,他左右两侧的基因是TuG1812G0100001941.01.T01和TuG1812G0100001943.01.T01,如下图所示。

image-20180513225732224image-20180513225732224
3 乌拉尔图基因组或者基因设计引物

关于设计引物这一部分,我们前面有两篇推送专门介绍,。今天就不再啰嗦了,小麦族多组学数据网站——设计基因组特异引物小麦族多组学数据网站——再说设计引物

4 乌拉尔图基因组jbrowse

这一点也是今天要介绍的重点,jbrowse这个东西好,什么数据都可以往里面塞。目前乌拉尔图小麦jbrowse的进入方法如下图所示,点击下图黄色的链接即可跳转。

image-20180513232253097image-20180513232253097

点进去之后,就是jbrowse的页面了,现在支持这样几组数据,基因组序列,基因组的GC含量(下图中的GCContent标签),TE就是转座子序列,TRF是重复单元,可以简单的理解为SSR类型的序列,接着就是转录本和CDS的展示。下面我们分别介绍这6个标签或者叫做track。

image-20180513232658657image-20180513232658657

4.1 “Reference sequence”标签,这个标签放大到一定程度可以看清楚每个碱基,如下图。其中,在“Reference sequence”标签上点击右键可以出现下图中红框里的设置对话框,需要特别说明的是图中“Save track data"(图中蓝色箭头所指),左键点击之后可以下载指定区间里的基因组序列。

image-20180514005509780image-20180514005509780

点击“Save track data"之后,就会出现下面的页面,在这里页面里点击view或者save,就可以看到对应区间的序列了。

image-20180514005852892image-20180514005852892

4.2 “urartu_gene_transcript”标签,这个就是放的官方注释的转录本。下图就是单个基因的页面,从这里我们可以看到这个基因在基因组的位置,功能注释(蓝色文字),基因结构(外显子是红色,灰色是内含子)。如果将区间放大,就可以获取该区间内的所有基因。

image-20180515214534448image-20180515214534448

左键点击在上述基因的结构上,会出现下图的页面。该页面详细展示了该基因的相关信息,比如功能描述,与拟南芥和水稻的哪个基因最相似,GO注释,蛋白结构域(PFAM)等。

image-20180515215211906image-20180515215211906

上面我们说的是左键点击,我们接着说一说,右键点击,右键点击会出现如下页面。一共会出现4个选项,第一个和前面左键点击的效果一样,不在细说。

image-20180515215703676image-20180515215703676

第二个选项“View Feature Sequence”,点击之后会出现下面的页面。这个页面是获取序列的功能,比如这个基因的基因组序列,外显子序列,以及上游或下游序列。只要知道基因名字,就可以获得基因的相关序列了。

image-20180515215921877image-20180515215921877

第三个和第四个选项是关于这个基因在水稻和拟南芥里最相似的基因的详情页面。这里最相似的定义是使用小麦基因blastp水稻或拟南芥基因,blast结果中的第一条就认为是最相似的,标准是1e-5。更多blast结果在刚刚左键点击获取的页面已经有展示。这里要特别注意,拟南芥里的这个基因不一定就是和小麦里的这个基因最相似,也可能是其他基因。这里就不截图了,点开就可以获取详细的信息。

4.3 “urartu_gene_CDS”标签,这个主要记录了CDS的起始与结束,其他内容和上边的transcript标签基本一致,这里就不再细说。

4.4 “GCContent”标签,就是参考基因组的GC含量。下面展示的是某一区间的GC含量,其中红色表示富含AT,GC含量较低,蓝色表示富含GC,GC含量较高。

4.5 “TE”标签,也即转座子。本标签记录的是转座子的相关信息。如下图所示。这里的转座子是官方注释的,这里一个位点上给出了很多条转座子,实际上可能该处只有一个转座子。下面展示的在基因里也有转座子,这个也要理性对待,这都是生信预测的,并不一定预示着这个地方就是转座子序列。

image-20180515223006667image-20180515223006667

4.6 “TRF”标签是展示了序列重复单元和次数,比如我们熟知的SSR。如果你要设计某个区间的SSR,直接从这里就可以获取,不用再截取序列,然后拿序列去预测了。

image-20180515223730972image-20180515223730972
5 善用搜搜

我们的jbrowse是支持搜索功能的,通过基因的名字,标记的名字,水稻基因的名字,拟南芥基因的名字,GO id蛋白结构域ID,pathway ID等都可以搜索。上面文字加粗的表示目前乌拉尔图小麦基因族支持的,在下图红色框里输入要搜索的内容即可。如果搜索不到,那就表示jbrowse数据里没有。比如,我要搜索一个标记,但是这里没有。很可能我们没有标记序列或者与在参考基因组上找不到对应的位置。

image-20180515224244729image-20180515224244729

今天要说的就这些,后面会陆续添加乌拉尔图文章里的其他数据。乌拉尔图小麦这篇文章从投稿到正式在线,花了一年半之久,周期比较长。如果数据能够提前获取的话,就更好了。好在这样的趋势在改变,包括有些杂志专门刊登数据,有不少人也选择预印本,这样可以让新数据及时公开。像中国春,D基因组,durum等等的序列都有提前公开。目前听说国内有不少专家学者选择先公开数据,再发表文章。这种做法值得大家点个赞。当然了,如果使用别人未发表的数据还是要遵守相关约定,遵守学术道德。


wheatomics2wheatomics2geizangeizan




https://blog.sciencenet.cn/blog-1094241-1115043.html

上一篇:2018年第17周小麦文献汇总(5.13)
下一篇:乌拉尔图小麦里有3万个miRNA?
收藏 IP: 58.213.93.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-3 01:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部