|
samtools是目前广泛使用额关于处理bam/sam文件的工具。从测序仪得到的fastq文件经过mapping后得到二进制的bam文件,而sam则是它的十进制版本。
sam文件的格式:每行代表一条read信息,并用制表符分成12个部分,每一部分含义如下:
我们来看下面这个例子:
NS5--3943为这段read的ID,147为flag(下面讲),chr10 60794为read所在染色体及位置;20是测序质量;36M表示36个位置全部map上。主要用的信息是这些,后面为36个碱基测序结果以及每个位置上的map质量。
Flag:
其中第二个位置Flag包含了大量有用的信息,需要注意的是这里要将十进制数化为二进制然后比对每个位置上01分布;
samtools几个常见应用:
bam->sam:
samtools view -h file.bam > file.sam samtools view -b -S file.sam > file.bam
用IGV等可视化bam文件前的sort,index:
samtools sort file.bam file.sort
samtools index file.sort.bam file.sort.bam.bai
.fa文件的index:
samtools faidx file.fa
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-10 06:12
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社