||| |
安装:
conda install seqkit
使用:
1. 将多行序列转换为单行序列(特别用于在windows操作后,linux无法识别情况下的sequence normalization)
seqkit seq test.fa -w 0 > test_w.fa
2. 统计序列碱基含量
seqkit fx2tab [flags]
参数:
-B, --base-content value
要输出的碱基含量e.g. -B AT -B N
-g, --gc
print GC content
-l, --length
print sequence length
-n, --name
only print names
-i, --only-id
print ID instead of full head
举例:
seqkit fx2tab -l -g -n -i -H test.fa
3. 统计原始数据的测序量,看生成的表格中的sum_len,双向测序的则需要相加,如以下样本,测序量为12.77Gbp
seqkit stats 1.fq.gz 2.fq.gz file format type num_seqs sum_len min_len avg_len max_len 1.fq.gz FASTQ DNA 42,565,036 6,384,755,400 150 150 150 2.fq.gz FASTQ DNA 42,565,036 6,384,755,400 150 150 150
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 07:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社