||
前面我们谈了如何调取目标区间的序列、基因等。今天我们再详细说一说如何利用手头上的数据进行基于单基因的分析。
今天的主角是GW5,我们前面在《水稻GW5的前世今生》里介绍过水稻的GW5基因,今天我们就以小麦里的GW5为例。
下面是水稻GW5的基因序列
>LOC_Os05g09520.1
ATGGGCAAGGCGGCGCGGTGGTTCCGCAACATGTGGGGAGGAGGGAGGAAGGAGCAGAAG
GGCGAGGCGCCGGCGAGTGGGGGGAAGAGGTGGAGCTTCGGGAAGTCGTCGAGGGACTCG
GCGGAGGCCGCGGCGGCTGCTGCTGCGGCGGCGGCGGAGGCTTCCGGGGGCAATGCGGCG
ATCGCCAGGGCGGCCGAGGCGGCGTGGCTCAGGTCGGTGTACGCCGACACGGAGCGGGAG
CAGAGCAAGCACGCCATCGCCGTCGCCGCGGCCACCGCGGCGGCGGCTGATGCCGCCGTG
GCGGCCGCTCAGGCCGCCGTCGCCGTCGTGCGGCTTACTAGCAAGGGCCGCTCGGCTCCC
GTCCTCGCCGCCACCGTCGCCGGCGACACGCGCAGCCTTGCCGCCGCCGCCGTCAGAATC
CAGACGGCATTCAGAGGCTTCCTGGCGAAGAAGGCGCTGCGAGCGCTCAAGGCGCTGGTG
AAGCTGCAGGCGCTGGTGCGCGGCTACCTCGTTCGCCGGCAGGCCGCCGCCACGCTGCAG
AGCATGCAGGCGCTCGTCCGCGCCCAGGCCACTGTCCGCGCCCACCGCAGTGGCGCCGGC
GCCGCCGCCAATCTCCCGCACCTCCACCACGCTCCCTTCTGGCCCCGCCGCTCGCTGGTA
CGCCGCTGGCTAAATCTCGCCGACGACATCGCCATGTATATGTTCGATGTTGACGTTGTG
TGTTGGCGATGGATGCAGCAGGAGAGGTGCGCCGGCGACGACACGAGGAGCGAGCACGGT
GTGGCGGCGTACAGCCGGCGGCTGTCGGCGAGCATCGAGTCGTCGTCGTACGGGTACGAC
CGGAGCCCCAAGATCGTGGAGGTGGACACCGGGAGGCCCAAGTCGCGGTCGTCGTCGTCG
CGGCGGGCGAGCTCCCCGCTGCTGCTCGACGCCGCTGGGTGCGCGAGCGGCGGCGAGGAC
TGGTGCGCCAACTCCATGTCGTCGCCGCTCCCGTGCTACCTCCCCGGCGGCGCGCCGCCG
CCCCGCATCGCCGTCCCGACGTCGCGCCACTTCCCCGACTACGACTGGTGCGCGCTGGAG
AAGGCCCGGCCGGCGACGGCGCAGAGCACGCCGCGGTACGCGCACGCGCCGCCGACGCCG
ACCAAGAGCGTGTGCGGCGGCGGCGGCGGCGGCGGCATCCACTCGTCGCCGCTCAACTGC
CCGAACTACATGTCCAACACGCAGTCGTTCGAGGCGAAGGTGCGTTCGCAGAGCGCGCCG
AAGCAGCGGCCGGAGACCGGCGGCGCCGGCGCCGGCGGCGGCCGGAAGCGGGTGCCGCTG
AGCGAGGTGGTGGTGGTGGAGTCCAGGGCGAGCTTGAGCGGCGTGGGCATGCAGCGCTCG
TGCAACCGGGTGCAGGAGGCGTTCAACTTCAAGACGGCCGTCGTCGGCCGCCTCGACCGC
TCGTCGGAGTCCGGCGAGAACGACCGCCACGCGTTCTTGCAGAGGAGGTGGTGA
上述水稻GW5的CDS序列作为查询序列,使用blastn查询小麦基因数据库。具体操作方式如下。
2018-08-06 15_53_40
blast结果如下,
2018-08-06 15_59_27
从结果中我们可以判断出GW5在小麦里位于小麦第一部分同源群,1A/1B/1D。基因的名字是TraesCS1A01G122900,TraesCS1B01G142100,TraesCS1D01G123800。注意,此处我使用的是GW5的核酸序列,仅仅因为该基因在水稻和小麦之间比较保守。这里也可以使用蛋白序列。
这里可以是基因的CDS序列,基因组序列,启动子序列等,基因上下游序列等。具体的操作方式如下,
2018-08-06 16_30_37
至于蛋白序列,可以在get sequence里获取(http://202.194.139.32/getfasta/index.html),前面我们也已经介绍过了《小麦族多组学数据网站——序列获取》。或者有CDS序列,可以使用一些翻译工具获取。
这里主要是用三代转录组测序的结果。成熟的mRNA5’端会加帽,往往有一个额外的G,而3’端会有polyA。据此,可以判断基因的转录起始位点,3’端结束的位置。要多看一些reads的结果再确定,不同组织里还可能发现可变的TSS和polyA位点。
关于表达方面的数据,我们前面已经介绍过使用IWGSC上提供的表达数据。具体的下载地址可以参见前一篇《获取目标染色体区间内的基因和候选基因的筛选策略》。也可以在线使用这个数据http://www.wheat-expression.com/。
按照上图操作,实际上是下载了这3个基因的原始表达数据(TPM),使用excel打开之后,整理成需要的格式,并且根据需要作图即可。
提前获知基因在不同材料之间的变异情况,有助于我们多态标记等,然后再结合表型数据就可以进行一些有意思的分析了。选择的时候,尽量不要选择稀有的变异。此处仅以820k为例,其他的数据,可在jbrowse上进一步探索。
从下图来看,此处有降解组的reads支持,那么该基因可能是某些小RNA的靶基因。不过还需要更多的分析来证明。
今天的内容就到这吧。以后数据会越来越多,我们可利用的信息也越来越多。利用这些已发表的数据,我们可以快速做出预判。
最后在附上IWGSC官方的3个网站
https://urgi.versailles.inra.fr/WheatMine/begin.do
https://urgi.versailles.inra.fr/jbrowseiwgsc/gmod_jbrowse/?data=myData/IWGSC_RefSeq_v1.0
https://urgi.versailles.inra.fr/blast_iwgsc/?dbgroup=wheat_iwgsc_refseq_v1_chromosomes&program=blastn
一些小麦方面的最新资源可以在下面几个网站查阅。
https://wheat-urgi.versailles.inra.fr/Seq-Repository
http://www.wheatgenome.org/
https://wheat.pw.usda.gov/GG3/
http://www.10wheatgenomes.com/