mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

给GFF3格式文件添加fasta格式

已有 5812 次阅读 2017-3-31 11:01 |系统分类:科研笔记| Python, fasta, GFF3

给GFF3格式文件添加fasta格式

  是不是没见过带有序列的gff3格式。为啥这么做,这就要说到我最近在做的东西了。Jbrowse是一款基因组可视化浏览器。可以将基因组可视化以及大部分以基因组为基础的可视化,比如reads、SNP、QTL、GWAS、gene。支持fasta,bam,vcf,gff3等格式文件。说了这么多,给个实例,自己慢慢体会。同时附上官网地址Genome Biology上的论文。

  优点就是:A fast, embeddable genome browser built with HTML5 and JavaScript。缺点的话相比GBrowse来说就是对比较基因组学的结果展示不是太好。

顺带介绍一款与Jbrowse具有相似功能的新软件,Pbrowse。感兴趣的可以自行脑补知识点。

  为什么可视化?这就不得不说我所在的实验室。我导师虽说可以招收生物信息学博士,是做遗传出身的,生物信息不是实验室的主要方向。现在我们实验室专门做生物信息的就俩人。一个是南大新来的小袁老师,另一个就是我。实验室主要的方向是做图位克隆。我们所做的一些工作也要服务于这一方向。老板应该属于早期生物信息学者,对二代测序的东西不是很熟悉也不相信。比如,老板比较相信EST序列,一个A基因有1条EST序列支持,另外一个B基因没有EST支持。但是从RNA_seq结果来看,B基因比A基因表达高10倍。老板非得说,RNA_seq不对,还要求查看原始的reads。看也可以,但是IGV这类的软件他也不用,他只用macvector,于是我花了很大的功夫整成macvector格式给他看。当然,看完也就那样,这种反常也正常,120万条EST只有1条EST支持,说明基因表达水平本来就低,那1条可能就是随机出现的。有些基因如果只有RNA_seq支持,没有EST支持,那么他认为这个基因几乎就不可信。实验室30多号生物信息薄弱患者,大部分人的区间不一样,关心的数据不一样,该如何让他们更容易的使用这些已发表的生物信息资源?于是我看到了Jbrowse,数据整理好在线可视化,对于我们俩来说是一种解放。

 叨叨这么多,言归正传。gff3格式导入进Jbrowse,通过点击左键不能获得全长transcript序列,所以就想到加一个fasta标签就可以了。当然gff3格式还可以加入其它信息,比如功能注释的信息。  科学网格式支持不是很好,想看代码部分的请移步这里这里,这里

 GFF3格式如下:

chr1AStringTietranscript440108291000+.ID=CS_RNA_seq.10.141;geneID=CS_RNA_seq.10
chr1AStringTieexon44012691000+.Parent=CS_RNA_seq.10.141
chr1AStringTieexon10409108291000+.Parent=CS_RNA_seq.10.141
chr1AStringTietranscript440159921000+.ID=CS_RNA_seq.10.117;geneID=CS_RNA_seq.10
chr1AStringTieexon4407431000+.Parent=CS_RNA_seq.10.117
chr1AStringTieexon15893159921000+.Parent=CS_RNA_seq.10.117
chr1AStringTietranscript440168391000+.ID=CS_RNA_seq.10.139;geneID=CS_RNA_seq.10
chr1AStringTieexon44012691000+.Parent=CS_RNA_seq.10.139
chr1AStringTieexon16419168391000+.Parent=CS_RNA_seq.10.139










fasta格式就不贴在这里了。
最后的结果:

chr1AStringTietranscript440108291000+.ID=CS_RNA_seq.10.141;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCATGTGAAATACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCGGAAGCGGGGCATGTCCCCTCCTTTTGGCTCCAAGGCCCGGTCTTACCGAGCCGATCTGGGCGGAAGACATTGTCAGGTGGGGAGTTTGGCTGGGGCGGCACATCTGTTAAAAGATAACGCAGGTGTCCTAAGATGAGCTCAACGAGAACAGAAATCTCGTGTGGAACAAAAGGGTAAAAGCTCGTTTGATTCTGATTTCCAGTACGAATACGAACCGTGAAAGCGTGGCCTATCGATCCTTTAGATCTTCGGAGTTTGAAGCTAGAGGTGTCAGAAAAGTTACCACAGGGATAACTGGCTTGTGGCAGCCAAGCGTTCATAGCGACGTTGCTTTTTGATCCTTTGATGTCGGCTCTTCCTATCATTGTGAAGCAGAATTCACCAAGTGTTGGATTGTTCACCCACCAATAGGGAACGTGAGCTGGGTTTAGACCGTCGTGAGACAGGTTAGTTTTACCCTACCGATGACAGTGTCGCGATAGTAATTCAACCTAGTACGAGAGGAACCGTTGATTCACACAATTGGTCATCGCGCTTGGTTGAAAAGCCAGTGGCGCGAAGCTACCGTGTGCCGGATTATGACTGAACGCCTCTAAGTCAGAATCCAAGCTAGCATGCGACACCTGCGCCCGCCGCCCGCCCCGACCCACGTTAGGGGCGCTTGCGCCCCCAAGGGCCCGTGCCATTGGCTAAGCCGGTCCGGCCGACGTGCCGCGGCCGGCCGCCTCGAAGCTCCCTTCCCAACGGGCGGTGGGCTGAATCCTTTGCAGACGACTTAAATACGCGACGGGGCATTGTAAGTGGCAGAGTGGCCTTGCTGCCACGATCCACTGAGATCCAGCCCCATGTCGCATGGATTCGTCCCTC
chr1AStringTieexon44012691000+.Parent=CS_RNA_seq.10.141
chr1AStringTieexon10409108291000+.Parent=CS_RNA_seq.10.141
chr1AStringTietranscript440159921000+.ID=CS_RNA_seq.10.117;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCAAGTGAAACACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCAGAAGCGGGGCATGTCCCCTC
chr1AStringTieexon4407431000+.Parent=CS_RNA_seq.10.117
chr1AStringTieexon15893159921000+.Parent=CS_RNA_seq.10.117
chr1AStringTietranscript440168391000+.ID=CS_RNA_seq.10.139;geneID=CS_RNA_seq.10;seq=AAAGCATTGCGATGGTCCTCGCGGATGCTGACGCAATGTGATTTCTGCCCAGTGCTCTGAATGTCAAAGTGAAGAAATTCAACCAAGCGCGGGTAAACGACGGGAGTAACTATGACTCTCTTAAGGTAGCCAAATGCCTCGTCATCTAATTAGTGACGCGCATGAATGGATTAACGAGATTCCCACTGTCCCTGTCTACTATCCAGCGAAACCACAGCCAAGGGAACGGGCTTGGCGGAATCAGCGGGGAAAGAAGACCCTGTTGAGCTTGACTCTAGACCGACTTTGTGAAATGACTTGAGAGGTGTAGGATAAGTGGGAGCCCTCACGGGCGCATGTGAAATACCACTACTTTTAACGTTATTTTACTTATTCCGTGGGTCGGAAGCGGGGCATGTCCCCTCCTTTTGGCTCCAAGGCCCGGTCTTACCGAGCCGATCTGGGCGGAAGACATTGTCAGGTGGGGAGTTTGGCTGGGGCGGCACATCTGTTAAAAGATAACGCAGGTGTCCTAAGATGAGCTCAACGAGAACAGAAATCTCGTGTGGAACAAAAGGGTAAAAGCTCGTTTGATTCTGATTTCCAGTACGAATACGAACCGTGAAAGCGTGGCCTATCGATCCTTTAGATCTTCGGAGTTTGAAGCTAGAGGTGTCAGAAAAGTTACCACAGGGATAACTGGCTTGTGGCAGCCAAGCGTTCATAGCGACGTTGCTTTTTGATCCTTTGATGTCGGCTCTTCCTATCATTGTGAAGCAGAATTCACCAAGTGTTGGATTGTTCACCCACCAATAGGGAACGTGAGCTGGGTTTAGACCGTCGTGAGACAGGTTAGTTTTACCCTACCGATGACAGTGTCGCGATAGTAATTCAACCTAGTACGAGAGGAACCGTTGATTCACACAATTGGTCATCGCGCTTGGTTGAAAAGCCAGTGGCGCGAAGCTACCGTGTGCCGGATTATGACTGAACGCCTCTAAGTCAGAATCCAAGCTAGCATGCGACACCTGCGCCCGCCGCCCGCCCCGACCCACGTTAGGGGCGCTTGCGCCCCCAAGGGCCCATGCCATTGGCTAAGCCGGTCCGGCCGACGTGCCGCGGCCGGCCGCCTCGAAGCTCCCTTCCCAACGGGCGGTGGGCTGAATCCTTTGCAGACGACTCAAATACGCGACGGGGCATTGTAAGTGGCAGAGTGGCCTTGCTGCCACGATCCACTGAGATCCAGCCCCATGTCGCATGGATTCGTCCCTC
chr1AStringTieexon44012691000+.Parent=CS_RNA_seq.10.139
chr1AStringTieexon16419168391000+.Parent=CS_RNA_seq.10.139









python代码如下:



#!/usr/bin/env python

# -*- coding: utf-8 -*-


__author__ = 'Sheng-Wei Ma'

__author_email__ = 'shengweima@icloud.com'


dic = {}

withopen('1.txt', 'r') as f:

   for line in f:

       lin = line.strip().split()

       if lin[0] notin dic:

           dic[lin[0]] = lin[2]


withopen('CS_RNA_seq_transcript.gff3', 'r') as f2:

   for line in f2:

       lin = line.strip().split('t')

       if lin[2] == 'transcript':

           name = lin[8].split(";")[0].split('=')[1]

           if name in dic:

               print line.strip() + ";seq=" + str(dic[name])

       else:

           print line,






https://blog.sciencenet.cn/blog-1094241-1042766.html

上一篇:综述:小麦基因组研究进展
下一篇:计算CDS中密码子的数量
收藏 IP: 58.213.93.*| 热度|

3 dxfei wf521 tyboy

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 04:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部