||
是不是没见过带有序列的gff3格式。为啥这么做,这就要说到我最近在做的东西了。Jbrowse是一款基因组可视化浏览器。可以将基因组可视化以及大部分以基因组为基础的可视化,比如reads、SNP、QTL、GWAS、gene。支持fasta,bam,vcf,gff3等格式文件。说了这么多,给个实例,自己慢慢体会。同时附上官网地址和Genome Biology上的论文。
优点就是:A fast, embeddable genome browser built with HTML5 and JavaScript。缺点的话相比GBrowse来说就是对比较基因组学的结果展示不是太好。
顺带介绍一款与Jbrowse具有相似功能的新软件,Pbrowse。感兴趣的可以自行脑补知识点。
为什么可视化?这就不得不说我所在的实验室。我导师虽说可以招收生物信息学博士,但是做遗传出身的,生物信息不是实验室的主要方向。现在我们实验室专门做生物信息的就俩人。一个是南大新来的小袁老师,另一个就是我。实验室主要的方向是做图位克隆。我们所做的一些工作也要服务于这一方向。老板应该属于早期生物信息学者,对二代测序的东西不是很熟悉也不相信。比如,老板比较相信EST序列,一个A基因有1条EST序列支持,另外一个B基因没有EST支持。但是从RNA_seq结果来看,B基因比A基因表达高10倍。老板非得说,RNA_seq不对,还要求查看原始的reads。看也可以,但是IGV这类的软件他也不用,他只用macvector,于是我花了很大的功夫整成macvector格式给他看。当然,看完也就那样,这种反常也正常,120万条EST只有1条EST支持,说明基因表达水平本来就低,那1条可能就是随机出现的。有些基因如果只有RNA_seq支持,没有EST支持,那么他认为这个基因几乎就不可信。实验室30多号生物信息薄弱患者,大部分人的区间不一样,关心的数据不一样,该如何让他们更容易的使用这些已发表的生物信息资源?于是我看到了Jbrowse,数据整理好在线可视化,对于我们俩来说是一种解放。
叨叨这么多,言归正传。gff3格式导入进Jbrowse,通过点击左键不能获得全长transcript序列,所以就想到加一个fasta标签就可以了。当然gff3格式还可以加入其它信息,比如功能注释的信息。 科学网格式支持不是很好,想看代码部分的请移步这里,这里,这里
GFF3格式如下:
chr1A | StringTie | transcript | 440 | 10829 | 1000 | + | . | ID=CS_RNA_seq.10.141;geneID=CS_RNA_seq.10 |
chr1A | StringTie | exon | 440 | 1269 | 1000 | + | . | Parent=CS_RNA_seq.10.141 |
chr1A | StringTie | exon | 10409 | 10829 | 1000 | + | . | Parent=CS_RNA_seq.10.141 |
chr1A | StringTie | transcript | 440 | 15992 | 1000 | + | . | ID=CS_RNA_seq.10.117;geneID=CS_RNA_seq.10 |
chr1A | StringTie | exon | 440 | 743 | 1000 | + | . | Parent=CS_RNA_seq.10.117 |
chr1A | StringTie | exon | 15893 | 15992 | 1000 | + | . | Parent=CS_RNA_seq.10.117 |
chr1A | StringTie | transcript | 440 | 16839 | 1000 | + | . | ID=CS_RNA_seq.10.139;geneID=CS_RNA_seq.10 |
chr1A | StringTie | exon | 440 | 1269 | 1000 | + | . | Parent=CS_RNA_seq.10.139 |
chr1A | StringTie | exon | 16419 | 16839 | 1000 | + | . | Parent=CS_RNA_seq.10.139 |
fasta格式就不贴在这里了。
最后的结果:
chr1A | StringTie | transcript | 440 | 10829 | 1000 | + | . | ID=CS_RNA_seq.10.141;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCATGTGAAATACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCGGAAGCGGGGCATGTCCCCTCCTTTTGGCTCCAAGGCCCGGTCTTACCGAGCCGATCTGGGCGGAAGACATTGTCAGGTGGGGAGTTTGGCTGGGGCGGCACATCTGTTAAAAGATAACGCAGGTGTCCTAAGATGAGCTCAACGAGAACAGAAATCTCGTGTGGAACAAAAGGGTAAAAGCTCGTTTGATTCTGATTTCCAGTACGAATACGAACCGTGAAAGCGTGGCCTATCGATCCTTTAGATCTTCGGAGTTTGAAGCTAGAGGTGTCAGAAAAGTTACCACAGGGATAACTGGCTTGTGGCAGCCAAGCGTTCATAGCGACGTTGCTTTTTGATCCTTTGATGTCGGCTCTTCCTATCATTGTGAAGCAGAATTCACCAAGTGTTGGATTGTTCACCCACCAATAGGGAACGTGAGCTGGGTTTAGACCGTCGTGAGACAGGTTAGTTTTACCCTACCGATGACAGTGTCGCGATAGTAATTCAACCTAGTACGAGAGGAACCGTTGATTCACACAATTGGTCATCGCGCTTGGTTGAAAAGCCAGTGGCGCGAAGCTACCGTGTGCCGGATTATGACTGAACGCCTCTAAGTCAGAATCCAAGCTAGCATGCGACACCTGCGCCCGCCGCCCGCCCCGACCCACGTTAGGGGCGCTTGCGCCCCCAAGGGCCCGTGCCATTGGCTAAGCCGGTCCGGCCGACGTGCCGCGGCCGGCCGCCTCGAAGCTCCCTTCCCAACGGGCGGTGGGCTGAATCCTTTGCAGACGACTTAAATACGCGACGGGGCATTGTAAGTGGCAGAGTGGCCTTGCTGCCACGATCCACTGAGATCCAGCCCCATGTCGCATGGATTCGTCCCTC |
chr1A | StringTie | exon | 440 | 1269 | 1000 | + | . | Parent=CS_RNA_seq.10.141 |
chr1A | StringTie | exon | 10409 | 10829 | 1000 | + | . | Parent=CS_RNA_seq.10.141 |
chr1A | StringTie | transcript | 440 | 15992 | 1000 | + | . | ID=CS_RNA_seq.10.117;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCAAGTGAAACACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCAGAAGCGGGGCATGTCCCCTC |
chr1A | StringTie | exon | 440 | 743 | 1000 | + | . | Parent=CS_RNA_seq.10.117 |
chr1A | StringTie | exon | 15893 | 15992 | 1000 | + | . | Parent=CS_RNA_seq.10.117 |
chr1A | StringTie | transcript | 440 | 16839 | 1000 | + | . | ID=CS_RNA_seq.10.139;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCATGTGAAATACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCGGAAGCGGGGCATGTCCCCTCCTTTTGGCTCCAAGGCCCGGTCTTACCGAGCCGATCTGGGCGGAAGACATTGTCAGGTGGGGAGTTTGGCTGGGGCGGCACATCTGTTAAAAGATAACGCAGGTGTCCTAAGATGAGCTCAACGAGAACAGAAATCTCGTGTGGAACAAAAGGGTAAAAGCTCGTTTGATTCTGATTTCCAGTACGAATACGAACCGTGAAAGCGTGGCCTATCGATCCTTTAGATCTTCGGAGTTTGAAGCTAGAGGTGTCAGAAAAGTTACCACAGGGATAACTGGCTTGTGGCAGCCAAGCGTTCATAGCGACGTTGCTTTTTGATCCTTTGATGTCGGCTCTTCCTATCATTGTGAAGCAGAATTCACCAAGTGTTGGATTGTTCACCCACCAATAGGGAACGTGAGCTGGGTTTAGACCGTCGTGAGACAGGTTAGTTTTACCCTACCGATGACAGTGTCGCGATAGTAATTCAACCTAGTACGAGAGGAACCGTTGATTCACACAATTGGTCATCGCGCTTGGTTGAAAAGCCAGTGGCGCGAAGCTACCGTGTGCCGGATTATGACTGAACGCCTCTAAGTCAGAATCCAAGCTAGCATGCGACACCTGCGCCCGCCGCCCGCCCCGACCCACGTTAGGGGCGCTTGCGCCCCCAAGGGCCCATGCCATTGGCTAAGCCGGTCCGGCCGACGTGCCGCGGCCGGCCGCCTCGAAGCTCCCTTCCCAACGGGCGGTGGGCTGAATCCTTTGCAGACGACTCAAATACGCGACGGGGCATTGTAAGTGGCAGAGTGGCCTTGCTGCCACGATCCACTGAGATCCAGCCCCATGTCGCATGGATTCGTCCCTC |
chr1A | StringTie | exon | 440 | 1269 | 1000 | + | . | Parent=CS_RNA_seq.10.139 |
chr1A | StringTie | exon | 16419 | 16839 | 1000 | + | . | Parent=CS_RNA_seq.10.139 |
python代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'Sheng-Wei Ma'
__author_email__ = 'shengweima@icloud.com'
dic = {}
withopen('1.txt', 'r') as f:
for line in f:
lin = line.strip().split()
if lin[0] notin dic:
dic[lin[0]] = lin[2]
withopen('CS_RNA_seq_transcript.gff3', 'r') as f2:
for line in f2:
lin = line.strip().split('t')
if lin[2] == 'transcript':
name = lin[8].split(";")[0].split('=')[1]
if name in dic:
print line.strip() + ";seq=" + str(dic[name])
else:
print line,
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社