||
就小麦目前的情况来说,很多时候不需要再通过race实验拿全长了。在做race之前,我们手里拿到的序列很可能就已经是完整的序列了,甚至基因的上下游序列都是已知的。
我们都知道现在RNA-seq已经很普遍了。这些转录组数据多数是illumina平台上的产生的,少部分是454和PacBio等平台产生的。最近我们收集了部分454序列和PacBio的转录组序列,在分别将它们mapping至中国春1.0基因组上,最后放到我们的小麦族多组学网站上(http://202.194.139.32)上供大家查阅参考。接下来介绍下用法。
点击网站顶部“JBrowse”,出现下拉页面,点击“Chinese Sring (IWGSCv1.0)”,如下图的页面。
这里我们以小麦里注明的Q基因为例,前段时间我们的小萌萌介绍过一篇PNAS经典品读-小麦驯化基因Q的进化分析, 近几年也有很多关于Q基因的报道,有兴趣的可以搜集下专题阅读下。通过NCBI检索,我们发现有201条核酸序列与Q基因有关,我们就以下图的第一条中的序列为例。
点开之后,获取Q基因的CDS序列,如下。
>KX580304.1:142-554,653-678,782-812,909-996,1115-1260,1807-1851,1944-2047,2132-2274,2447-2563,3139-3369 Triticum aestivum cultivar shumai482 Q protein (Q) gene, Qc3 allele, complete cds
ATGGTGCTGGATCTCAATGTGGAGTCGCCGGCGGACTCGGGCACGTCCAGCTCCTCCGTGCTCAACTCCG
CGGACGCCGGTGGCGGCGGCTTCCGGTTCGGCCTGCTCGGGAGCCCTGATGATGACGACTGCTCCGGCGA
GCCGGCGCCGGTCGGGCCCGGGTTCGTCACGAGGCAGCTCTTCCCCGCGTCGCCGCCCGGGCACGCGGGC
GCGCCCGGGGTGACGATGGGGCAGCAGGCCCCGGCGCCTGCGCCGATGGCGCCCGTGTGGCAGCCGCGGC
GCGCCGAGGAGCTCCTCGTGGCGCAGCGGATGGCGCCCGCGAAGAAGACGCGGCGGGGGCCGAGGTCGCG
CAGCTCGCAGTACAGGGGCGTCACCTTCTACCGCAGGACCGGCCGGTGGGAGTCGCACATCTGGGATTGC
GGGAAGCAGGTCTACTTGGGTGGTTTCGACACTGCGCACGCGGCCGCAAGGGCCTACGATCGCGCGGCGA
TCAAGTTCCGGGGGCTGGAGGCCGACATCAACTTCAATCTGAGCGACTACGAGGAGGATTTGAAGCAGAT
GAGGAACTGGACCAAGGAGGAGTTCGTGCACATCCTCCGCCGCCAGAGCACGGGGTTCGCCAGGGGGAGC
TCCAAGTACCGCGGCGTCACGCTCCACAAGTGCGGCCGCTGGGAGGCAAGGATGGGCCAGCTGCTCGGCA
AGAAGTACATATATCTGGGCCTCTTTGACAGCGAAGTTGAAGCTGCAAGGGCGTACGACAGGGCGGCGAT
TCGCTTCAATGGGAGGGAAGCTGTGACTAACTTTGAGAGCAGCTCCTACAATGGGGATGCTCCACCCGAC
GCCGAAAATGAGGCAATTGTTGATGCTGATGCTCTTGACTTGGATCTGCGGATGTCGCAACCTACCGCGC
ACGATCCCAAGCGGGACAACATCATCGCCGGCCTTCAGTTAACTTTTGATTCCCCTGAATCGTCAACCAC
AATGATCTCTTCTCAGCCAATGAGCTCATCTTCTTCCCAGTGGCCTGTGCATCAACATGGCACGGCAGTA
GCACCTCAGCAGCACCAGCGTTTGTACCCATCTGCTTGTCATGGCTTCTACCCGAACGTACAGGTGCAGG
TGCAGGAGAGGCCCATGGAGGCAAGGCCCCCTGAGCAGCCGTCGTCCTTCCCCGGCTGGGGGTGGCAAGC
GCAAGCCATGCCGCCGGGCTCCTCCCACTCGCCGTTGCTTTACGCTGCAGTATCATCAGGATTTTCTACC
GCCGCCGCCGGCGCGAACCTCGCCCCGCCGCCGCCGTACCCGGACCACCACCGGTTCTACTTCCCCCGCC
CGCCGGACAACTGA
然后使用这个序列在我们网站上blast中国春1.0的编码基因数据库,如下。
blast结果如下图,根据结果我们可知,我们查询的这条序列位于5A,同时5B和5D上也有。
对应三个基因的名字是TraesCS5A01G473800.1,TraesCS5D01G486600.1,TraesCS5B01G486900.1。在jbrowse上查询这些基因的名字即可跳转到对应的区间。
点击上图中的GO之后,跳到如下页面。
右键点击上图中的转录本,可以获取外显子内含子序列,基因上游和下游序列。
弹出的页面如下:
好吧,其实我们还没有到今天的正题。
在jbrowse网页的左面显示的是“tracks”,也就是相关的数据集。这里我们要选择“pacbio RNA”和“454 RNA”,如下图所示。
也可以将下面这个网址粘贴到浏览器地址栏(http://202.194.139.32/jbrowse/?data=Chinese_Spring&loc=chr5A%3A650126423..650131048&tracks=IWGSCv1.0_HighConf_LowConf_gene%2CCS_PE_rna_seq.coverage%2CLeaf_0.7-2kb%2CLeaf_3-5kb%2CSpike_2-3kb%2CStem_2-3kb%2Cfl_cDNA_454%2CEST_454%2CEST%2Cwheat_mRNA(NCBI_4565)%2CTGACv1&highlight=)
如此这般,我们就可以拿到基因的全长了。
全长cDNA5'端会加帽,即一个G,3'端会加polyA。大家可以根据这些特点进行判断。也要提醒大家一点,PacBio序列不是每一条都是全长序列,最好查资料熟悉PacBio,454,illumina等平台的测序特点,这样才能做出正确的判断。
如果没有数据支持也正常,毕竟数据是有限的,有些基因只在某一时段或条件或者某些细胞里表达,所以不要请不要奇怪。另外也要注意这里的序列mapping也有一定几率出错,特别是如果和预期冲突时要小心求证。
其实这些数据还可以反过来验证IWGSCv.0基因注释的正确性。
下图所示是Ms2基因,IWGSC1.0就没有注释出来,但是TGACv1.0注释出来了,同时我们还可以发现有wheat_mRNA序列支持,查了下这个的信息(NCBI编号JV888005),发现来自于贾继增研究员和孔秀英研究员在12年发表的一篇文章,里面就有太谷核不育材料。
下面这个基因在1.0和TGAC里都漏掉了。
让我们把注意力回到Q基因上,熟悉Q基因的人都知道该基因是miR172的靶基因。如果要要验证一个靶基因一般需要做RACE,但是现在可以先看看已发表的数据里是否有证据支持。这里需要用到降解组文库,jbrowse上有一个整合的降解组文库,点击页面的左面可以选择。
这是5B上的情况,TraesCS5B01G486900.1。
这是5D上的情况,TraesCS5D01G486600.1。
我们还可以看看此处有没有90k,820k,660k snp芯片支持。
其中,820K还有品种材料的基因型信息,点击相应的SNP就可以看到,如下。
今天就到这里吧,除了我们今天和前面介绍的信息,这里还有隐藏很多信息没有介绍,我们多次呼吁大家要多多探索,多了解一点,也许实验上就会少做一点。
下面放上前面的介绍,算是一个系列吧,当然该系列还有很多要介绍的。
最近,玉米和高粱的全长转录组又来了,近日genome research 在线了一篇题为“A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing”的研究。2016年的时候他们在NC上分别发表两篇关于玉米和高粱的全长转录组研究,这次再次聚焦全长转录组,也许对我们小麦研究有启示。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-10 21:53
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社