||
我们要获得100个基因的启动子序列(ATG上游2k),我知道了这些基因atg的位置。
我习惯举例子来说明问题,小麦3B染色体序列我们已经有了,fasta格式 ,格式如下:
>3B
CAACCAGAAAATTCTTTGGTAGGCATGAAGGTCTCTGTCACTTGTTCGCCGTTGCTTCAA
ATAATAAAGATCAATTATGCTGATTTTGTTGGGCCTAATACAAACTTGATTTACAAAATA
AATAACATGTAGAAAACAAACCTTGATTGCAATTATAATTTTTTCCTTAAGGTATACATT
GGTGGGAGAAGAAGTCCAACCAGTCATTTTCTCAATGTGATCCAATCAACTTAGCAACAA
TAACGATCCTTGGTTTGACATAATTAATTCCACCACAAGGTTGGTGATGCACCCAACTTC
TGAGCATTGGTGACCTAAACGCACAAGGAGGTTTGCTAGTAAAAACTAAGGAGAGTGCAC
GGTGCAGTTATGATTAAGATCAATAGTGGTAGTTCAGTTTTAACTTTTTGCAATCACAGA
GTCTTCTATTCATCCCGTTGCCTCCTATTACAACAATTTCTTCTATCTTTTGTTCCTCTT
GCATGCTCTACATATTTATACCTAAGTTCAACTATCTCATGAAATACTAAGATGGTGTTG
假如我要获得这条序列的第3-10个碱基,和第11-20个碱基
要提取的序列及位置信息放在1.txt
3B 3 10
3B 11 20
脚本 fastalocation.py
python fastalocation.py 3B.fasta 1.txt > 1.fa
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-6-7 14:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社