|
1. 根据序列长度过滤
seqkit seq -m 1000 raw.fasta >raw.len1000.fasta seq 选项 -m 序列长度筛选(过滤掉低于-m值长度的序列) |
2. 每行序列的输出长度
①为0的话,代表为一整行,默认的输出 长度是每行60个碱基 seqkit seq test.fa -w 100 > test_100.fa (指定每行序列的长度为100) ②将多行序列转换为一行序列 seqkit seq test.fa -w 0 > test_w.fa |
3. 序列全部小写字母 或 大写字母
① 将序列全部以小写字母的形式输出 seqkit seq test.fa -l > test_lower.fa ② 将序列全部以大写字母的形式输出 seqkit seq test.fa -u > test_upper.fa |
4. 序列删除gap(将横杠去掉)
seqkit seq -g test.fa > test_deGap.fa |
5. 通过id/名称/序列删除重复的序列
① 序列重复 seqkit rmdup test.fa -s -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt ② id/名称重复 seqkit rmdup test.fa -n -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt 结果解释: clean.fa.gz 剔除重复序列(只保留一条<test.fa中首条>) duplicated.fa.gz 重复的序列 duplicated.detail.txt 统计重复信息 |
6. 拆分为若干个子序列文件
seqkit split hairpin.fa.gz -s 10000 结果解释: 按照每10000条序列,拆分为若干个子序列小文件 结果在hairpin.fa.gz.split/文件夹中 ,子序列文件名为hairpin.part_00*.fasta |
备注:多个参数可以组合使用
【参考】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 00:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社