FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+” 开头,随后是序列描述信息或者什么都不加;第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,如下图所示:FASTA:第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。;从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。如下图所示:Fastq与Fasta是生信分析最基础的格式之一,数据质量的好坏对后面的下游分析起着至关重要的作用,且二者可以相互转化,今天小编就分享一个由python编写的小工具Fastaq,能够直接将fasta文件和质量值文件转化为fastq文件,话不多说,直接上教程。1.下载工具Github网站下载:原始文件,如下图所示;
2.将下载下来的文件拷贝服务器上并用unzip命令解压,如下图所示;文末扫码关注微信公众号,后台回复关键词“fastq小工具”,获取软件安装包和测试数据下载链接。
faTofq.mp4
注意:fasta文件与质量值文件中的序列标号要相同,且要一样对应fastaq fasta_to_fastq --help
说明:这个小程序需要输入一个fasta文件,一个质量值文件,以及输出的fastq文件名称,程序很简单,但是功能强大。fastaq fasta_to_fastq test.fasta test.qual tetst.fastq
1.fastaq是一个工具集,主要功能是操作fastq文件与fasta文件,将fasta文件与对应的质量值文件转化为fastq文件只是其中的一个功能,还包括对fastq文件进行切分,过滤,提取序列的ID等功能,小编会在以后的推文中给大家介绍,感兴趣的小伙伴可以阅读官方帮助文档。
https://blog.sciencenet.cn/blog-3445347-1249822.html
上一篇:
UpSet——可视化的集合图下一篇:
使用SnapGene viewer绘制比较基因簇结构图