mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

小麦生信菜鸟(四)—基因表达数据库

已有 9988 次阅读 2018-2-15 10:05 |系统分类:科研笔记| 小麦, 基因组, 表达数据, TGAC

   2
12

                                   本期作者:Rui Wang

春节马上就要到了!希望大家都过一个好年!还继续奋斗在实验室的小伙伴也不要孤单,大部分的异乡游子都是没有春节假期的,你不是一个人在战斗!

今天咱们继续聊聊小麦生信常用数据库和网站-基因表达数据库,首先还是回到我们的Case Study上,我们鉴定到一个QTL,也找到了flanking marker 的具体物理位置,而且发现线性相关还不错,QTL被定位到了10M 的一个距离。那下一步就是看看这10M的区间都有哪些基因呢,它们的表达量又怎样呢?这就要用到我们今天介绍的gene表达数据库了。当然,10M距离之内基因数目还是很多的,想就此把candidate gene找到是不大可能的,但是做一下初步的筛选对我们以后的精细定位或者说发一篇不错的QTL mapping文章还是很有帮助的!

按照惯例,我们先从背景介绍和基本应用开始,已经熟知以下两个数据库的小伙伴可以点个赞直接去看春晚了,我们下次再详细聊怎样玩转这两个表达数据库。

首先,我们从下面这个网页开始,已经开始用RefSeq v1.0 的小伙伴应该看到过这个网站了吧,不过你有没有继续深入的点进去呢?比如我们要谈的Expression!

https://wheat-urgi.versailles.inra.fr/Seq-Repository/Expression

从这个网页可以轻易找到小麦基因表达的两个重要数据库,一个是WheatExp,另一个是ExpVIP(Wheat expression browser)。


第一个WheatExphttp://wheat.pw.usda.gov/WheatExp/

Quality and adapter-trimmed RNA seq reads were mapped to the full cDNA set of wheat transcripts from the International Wheat Genome SequencingConsortium which are hosted by the Ensembl database. Diploid datasets were mapped to A-genome (32,091cDNAs), tetraploid datasets were mapped to the A- and B-genomes (68,166 cDNAs)and hexaploid datasets were mapped to the A-, B- and D- genomes (101,245cDNAs). Current expression data is generated from Ensembl release 26. ReferenceFASTA and GTF files, as well as all expression data in tabular format, are available for download from the following FTP site.


这个数据库对应的文献于201512月发表在BMC Plant Biology上面。

目前这个数据库包括七套数据,第一个是跟发育期有关的,第二三个是跟小麦籽粒发育有关的,第五个数据是跟抗旱和热击有关的。

具体的应用有两种方法,第一种是用序列进行BLAST,第二种是直接输入基因的名字(大家看看这个example基因是based on哪个版本的annotation?)。

我输入了一个根部发育QTL所对应区间的gene,出来的结果非常直观,下图是不同发育期的表达量,不过基本可以排除这不是我要找的candidate gene了(大家可以根据结果分析一下)。

这个是在籽粒不同layers的表达量变化


第二个expVIPhttp://www.wheat-expression.com/

这个数据库跟上一个最大的不同在于数据种类增多了,包含16个研究(小麦中的不同发育时间,组织,病原体感染和非生物胁迫)的418RNA-seq样品的重新分析。比如最重要的是它有FHBRust,白粉病,和Septoriatritici blotch侵染后不同时期的基因表达量,这对于做抗病的小伙伴还是很有用的!这些数据不仅可以帮我们正向筛选想要的基因,有的时候也可以帮我们反向排除很多基因。

相对应的文章于2016年2月发表在PlantPhysiology

这个数据库应用起来就没有BLAST的功能了,只能输入基因的名字,可以输一个,也可以两个,用最下面的框框最多可以输50个。基因的名字可以用TCAG版本,也可以用CSS版本(就是下图所展示的IWGSC2.26版本)。

比如有一个QTL是跟穗子发育相关的,把对应的gene输入查询,结果如下,看到这个结果还是可以小兴奋一下的,因为这个gene在spike的表达远比在其它组织中要高,而且在spike中不同时期表达量也不一样,这样就可以根据我具体的trait来细致的分析。

另外,在表达量的上方会有针对16studies 的选项,大家可以根据自己所做的trait来选择,比如抗病的就选第7个,Stress-disease,当然也可以全选。

好了,今天的介绍就到这,其实对于这两个数据库,最主要问题还是基因注释名字版本的问题,有兴趣的小伙伴可以自己先玩一下。然后就是如何能把candidateregion内的所有gene一次性都调出来,这也是需要一些技巧的,我们下次在介绍。




https://blog.sciencenet.cn/blog-1094241-1099934.html

上一篇:2018年第六周小麦文献推荐(2.11)
下一篇:春节巨献: 揭开小麦Ph1的面纱-正史篇
收藏 IP: 49.90.172.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 21:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部