skysun的个人博客分享 http://blog.sciencenet.cn/u/skysun

博文

【转载】Fasta格式-from yzwpf

已有 6099 次阅读 2007-10-7 13:41 |个人分类:生命科学—系统发育和进化

Fasta格式:
Fasta格式,又叫Person(Fasta的主要作者)格式,是最简单的格式,使用最多。
A sequence in FASTA format begins with a single-line description, followed by lines of sequence data. The description line is distinguished from the sequence data by a greater-than (">") symbol in the first column. It is recommended that all lines of text be shorter than 80 characters in length.
Fasta格式先以一单行的描述开始,后接序列的详细数据。FASTA格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻译结束标志。



https://blog.sciencenet.cn/blog-4083-8478.html

上一篇:【转载】Paup的功能-from yzwpf
下一篇:【转载】Mega格式-from yzwpf
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-11 06:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部