lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

minimap2比对结果解释

已有 7922 次阅读 2022-6-4 11:35 |系统分类:科研笔记

1. PAF格式

命令

minimap2 -c ref.fa query.fa > alignment.c.paf

结果解释

.paf结果至少包括12列,加其他字段

Col
TypeDescription
1string
Query序列ID
2intQuery序列长度
3intQuery比对开始位置(*based
4intQuery比对结束位置(*based
5char
如果query/target是正链关系,'+'表示;负链关系,'-'表示
6stringTarget序列ID
7intTarget序列长度
8intTarget比对开始位置
9intTarget结束开始位置
10int比对上的碱基数 (matching bases)
11int对齐区域长度(包括gaps)
12int比对质量(0-255
additional fields

tags(the SAM-like typed key-value format)

Tag
Type
Description
tp
Aaln类型:P/primary, S/secondary and I,i/inversion
cm
iNumber of minimizers on the chain
s1iChaining score
s2iChaining score of the best secondary chain
NMiTotal number of mismatches and gaps in the alignment
MDZTo generate the ref sequence in the alignment
AS
iDP alignment score
SAZList of other supplementary alignments
msiDP score of the max scoring segment in the alignment
nniNumber of ambiguous bases in the alignment
tsATranscript strand (splice mode only)
cgZCIGAR string (only in PAF)
csZDifference string
dvfApproximate per-base sequence divergence
defGap-compressed per-base sequence divergence
rliLength of query regions harboring repetitive seeds

2. SAM格式

命令

minimap2 -a ref.fa query.fa > alignment.a.sam

结果解释

SAM文件由两部分组成,头部区和主体区,都以tab分列。

image.png

1. 头部区:以’@'开始,体现了比对的一些总体信息。比如比对的SAM格式版本,比对的参考序列,比对使用的软件等。

2. 主体区:比对结果,每一个比对结果是一行,有11个主列和一个可选列。

主体区部分:

关键字描述
1QNAMEQuery序列ID
2FLAGBwise FLAG(表示比对类型:paring,strand,mate strand等),如:0,99,256,2048等
3RENAMETarget序列ID
4POS比对到参考序列上的位置,从1开始计数;未比对上为0
5MAPQ比对的质量分数(越高说明比对到参考序列的上的位置越准确)。如果是255,说明该比对值无效。
6CIGAR简要比对信息表达式
7MRNM下一片段比对上的参考序列编号
8MPOS下一片段比对上的位置,如果不可用,此处为0
9ISIZE插入片段长度
10SEQ和参考序列在同一个链上比对的序列(若比对结果在负义链上,则序列是其反向重复序列,反向互补序列)
11QUAL比对序列的质量(ASCII-33=Phred base qualityreads碱基质量值
12Optional Fields可选的列以TAG:TYPE:VALUE的形式提供额外的信息

备注

1. FLAG释义表如下

image.png

2.   CIGAR string,简要比对信息表达式,示例如下图

image.png


3. 其他

a. 长序列比对

minimap2 -ax map-pb  ref.fa pacbio-reads.fq > aln.sam   # for PacBio CLR reads

minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam      # for Oxford Nanopore reads

b. 给参考序列建立索引

minimap2 -d ref.mmi ref.fa                     # indexing
minimap2 -a ref.mmi reads.fq > alignment.sam   # alignment





参考:

[1] lh3/minimap2: A versatile pairwise aligner for genomic and spliced nucleotide sequences (github.com)

[2] Manual Page - minimap2(1) (lh3.github.io)

[3] SAMv1.pdf (samtools.github.io)

[4] Explain SAM Flags (broadinstitute.github.io)






https://blog.sciencenet.cn/blog-994715-1341509.html

上一篇:vsearch软件cluster(聚类)结果解释
下一篇:bwa软件快速使用
收藏 IP: 124.126.17.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 10:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部