||
前两天一学生问怎么找含有某一个结构域的所有蛋白的序列,我原本以为这是简单得不用教的,不过想想,对于初入门的人,没接触过的就是难,尤其不是专门做bioinfo的,所以还是写写,也好方便后来的人可以查看。
这里以SH3 domain为例做个说明:
首先登陆 SMART的网站, http://smart.embl-heidelberg.de/
点击上图左下的“Normal mode”的搜索,进入新页面,找到 “Domains detected by SMART”一栏,在里面输入 SH3,然后search:
跳转到结果页面:
注意页面里的这行:
点解深蓝色的“56434”这个数字,能打开新的页面,
在Action选择“download protein sequences as a FASTA file”,然后下载就可以了。
SMART的数据更新得比较快,结果较全。pfam也是可以搜的,新不新还没比较过。
还有一些复杂的方法,例如可以利用position-specific scoring matrix (PSSM)去搜索数据库,在这里就不展开了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-19 21:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社