mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

小麦单基因分析

已有 6482 次阅读 2018-8-6 21:46 |系统分类:科研笔记| 小麦, 基因组, 序列获取

 前面我们谈了如何调取目标区间的序列、基因等。今天我们再详细说一说如何利用手头上的数据进行基于单基因的分析。

今天的主角是GW5,我们前面在《水稻GW5的前世今生》里介绍过水稻的GW5基因,今天我们就以小麦里的GW5为例。

下面是水稻GW5的基因序列

>LOC_Os05g09520.1
ATGGGCAAGGCGGCGCGGTGGTTCCGCAACATGTGGGGAGGAGGGAGGAAGGAGCAGAAG
GGCGAGGCGCCGGCGAGTGGGGGGAAGAGGTGGAGCTTCGGGAAGTCGTCGAGGGACTCG
GCGGAGGCCGCGGCGGCTGCTGCTGCGGCGGCGGCGGAGGCTTCCGGGGGCAATGCGGCG
ATCGCCAGGGCGGCCGAGGCGGCGTGGCTCAGGTCGGTGTACGCCGACACGGAGCGGGAG
CAGAGCAAGCACGCCATCGCCGTCGCCGCGGCCACCGCGGCGGCGGCTGATGCCGCCGTG
GCGGCCGCTCAGGCCGCCGTCGCCGTCGTGCGGCTTACTAGCAAGGGCCGCTCGGCTCCC
GTCCTCGCCGCCACCGTCGCCGGCGACACGCGCAGCCTTGCCGCCGCCGCCGTCAGAATC
CAGACGGCATTCAGAGGCTTCCTGGCGAAGAAGGCGCTGCGAGCGCTCAAGGCGCTGGTG
AAGCTGCAGGCGCTGGTGCGCGGCTACCTCGTTCGCCGGCAGGCCGCCGCCACGCTGCAG
AGCATGCAGGCGCTCGTCCGCGCCCAGGCCACTGTCCGCGCCCACCGCAGTGGCGCCGGC
GCCGCCGCCAATCTCCCGCACCTCCACCACGCTCCCTTCTGGCCCCGCCGCTCGCTGGTA
CGCCGCTGGCTAAATCTCGCCGACGACATCGCCATGTATATGTTCGATGTTGACGTTGTG
TGTTGGCGATGGATGCAGCAGGAGAGGTGCGCCGGCGACGACACGAGGAGCGAGCACGGT
GTGGCGGCGTACAGCCGGCGGCTGTCGGCGAGCATCGAGTCGTCGTCGTACGGGTACGAC
CGGAGCCCCAAGATCGTGGAGGTGGACACCGGGAGGCCCAAGTCGCGGTCGTCGTCGTCG
CGGCGGGCGAGCTCCCCGCTGCTGCTCGACGCCGCTGGGTGCGCGAGCGGCGGCGAGGAC
TGGTGCGCCAACTCCATGTCGTCGCCGCTCCCGTGCTACCTCCCCGGCGGCGCGCCGCCG
CCCCGCATCGCCGTCCCGACGTCGCGCCACTTCCCCGACTACGACTGGTGCGCGCTGGAG
AAGGCCCGGCCGGCGACGGCGCAGAGCACGCCGCGGTACGCGCACGCGCCGCCGACGCCG
ACCAAGAGCGTGTGCGGCGGCGGCGGCGGCGGCGGCATCCACTCGTCGCCGCTCAACTGC
CCGAACTACATGTCCAACACGCAGTCGTTCGAGGCGAAGGTGCGTTCGCAGAGCGCGCCG
AAGCAGCGGCCGGAGACCGGCGGCGCCGGCGCCGGCGGCGGCCGGAAGCGGGTGCCGCTG
AGCGAGGTGGTGGTGGTGGAGTCCAGGGCGAGCTTGAGCGGCGTGGGCATGCAGCGCTCG
TGCAACCGGGTGCAGGAGGCGTTCAACTTCAAGACGGCCGTCGTCGGCCGCCTCGACCGC
TCGTCGGAGTCCGGCGAGAACGACCGCCACGCGTTCTTGCAGAGGAGGTGGTGA
1 、获取小麦GW5基因

上述水稻GW5的CDS序列作为查询序列,使用blastn查询小麦基因数据库。具体操作方式如下。

2018-08-06 15_53_40

2018-08-06 15_53_40

blast结果如下,

2018-08-06 15_59_27

2018-08-06 15_59_27

从结果中我们可以判断出GW5在小麦里位于小麦第一部分同源群,1A/1B/1D。基因的名字是TraesCS1A01G122900,TraesCS1B01G142100,TraesCS1D01G123800。注意,此处我使用的是GW5的核酸序列,仅仅因为该基因在水稻和小麦之间比较保守。这里也可以使用蛋白序列。

2、获取基因序列(利用jbrowse)

这里可以是基因的CDS序列,基因组序列,启动子序列等,基因上下游序列等。具体的操作方式如下,

2018-08-06 16_30_37

2018-08-06 16_30_37

至于蛋白序列,可以在get sequence里获取(http://202.194.139.32/getfasta/index.html),前面我们也已经介绍过了《小麦族多组学数据网站——序列获取》。或者有CDS序列,可以使用一些翻译工具获取。

3 、确定基因的全长

这里主要是用三代转录组测序的结果。成熟的mRNA5’端会加帽,往往有一个额外的G,而3’端会有polyA。据此,可以判断基因的转录起始位点,3’端结束的位置。要多看一些reads的结果再确定,不同组织里还可能发现可变的TSS和polyA位点。


4 、了解基因的表达

关于表达方面的数据,我们前面已经介绍过使用IWGSC上提供的表达数据。具体的下载地址可以参见前一篇《获取目标染色体区间内的基因和候选基因的筛选策略》。也可以在线使用这个数据http://www.wheat-expression.com/。

2018-08-06 17_05_27


按照上图操作,实际上是下载了这3个基因的原始表达数据(TPM),使用excel打开之后,整理成需要的格式,并且根据需要作图即可。

5、获取序列变异数据

提前获知基因在不同材料之间的变异情况,有助于我们多态标记等,然后再结合表型数据就可以进行一些有意思的分析了。选择的时候,尽量不要选择稀有的变异。此处仅以820k为例,其他的数据,可在jbrowse上进一步探索。

6 查看是否有small RNA

从下图来看,此处有降解组的reads支持,那么该基因可能是某些小RNA的靶基因。不过还需要更多的分析来证明。

image-20180806175040382

今天的内容就到这吧。以后数据会越来越多,我们可利用的信息也越来越多。利用这些已发表的数据,我们可以快速做出预判。

最后在附上IWGSC官方的3个网站

https://urgi.versailles.inra.fr/WheatMine/begin.do
https://urgi.versailles.inra.fr/jbrowseiwgsc/gmod_jbrowse/?data=myData/IWGSC_RefSeq_v1.0
https://urgi.versailles.inra.fr/blast_iwgsc/?dbgroup=wheat_iwgsc_refseq_v1_chromosomes&program=blastn

一些小麦方面的最新资源可以在下面几个网站查阅。

https://wheat-urgi.versailles.inra.fr/Seq-Repository
http://www.wheatgenome.org/
https://wheat.pw.usda.gov/GG3/
http://www.10wheatgenomes.com/

本系列的“教程”暂时到此,后面有机会会继续介绍。希望能够帮到需要的人。

小麦族多组学中心网站使用注意事项


小麦研究联盟倾情打造小麦族多组学数据网站


小麦族多组学数据网站——序列获取


小麦族多组学数据网站——设计基因组特异引物


小麦族多组学数据网站——再说设计引物


小麦jbrowse数据更新


获取目标染色体区间内的基因和候选基因的筛选策略


小麦新资源


张一婧研究组开发方法助力小麦等大基因组作物核心基因组低成本组装及新基因挖掘


还在race拿全长?


IWGSCv1.0准确性如何?


在线使用乌尔图基因组



111322tqabi88lp9z87ap1.jpg



https://blog.sciencenet.cn/blog-1094241-1127917.html

上一篇:统计序列中的gap位置和大小
下一篇:大麦铝耐受性基因HvAACT1研究
收藏 IP: 89.31.125.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-2 18:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部