沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

如何批量的从DNA序列名字中提取信息

已有 6213 次阅读 2011-10-15 19:19 |个人分类:我的研究|系统分类:科研笔记| DNA, 批量, genbank, 序列名称

如何批量的从DNA序列名字中提取信息

 

熊荣川 xiongrongchuan@126.com

六盘水师范学院生物系

 

通常我们处理的基因或者蛋白质序列会是很多条,当我们以fasta格式下载到本地之后,我们会发现这些序列是非常冗长的,例如“>gi|110227385|gb|DQ650433.1|_Odorrana_aureola_voucher_FMNH_265919_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_gene_coms

但是通常我们需要用到的就是它们的编号,genbank索取号及对应的拉丁学名,如果是手工将它们整理到一个表格中,可想而知工作量有多大。

这里我们将使用word2007中“文本转换为表格”的功能实现以上目的。

首先我们使用一个我们自己的包含很多条序列的fasta文件,前提条件是我们还没有编辑过它们的名字,所以基本格式就像上面举例中的一样。

然后使用meg5 打开这个fasta文件,删掉所有的碱基或是氨基酸残基,这个时候只剩下序列的名称,输出为另外一个fasta格式文件。

该文件中只有序列名称, 如下所示

>gi|110227385|gb|DQ650433.1|_Odorrana_aureola_voucher_FMNH_265919_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_gene_coms

 

>gi|110227382|gb|DQ650432.1|_Amolops_cf._chapaensis_AMNH_163775_voucher_AMNH_163775_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunis

 

>gi|197723584|gb|EU861523.1|_Odorrana_chapaensis_voucher_AMNH_168685_cytochrome_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_(trnG)_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_s

 

>gi|197723572|gb|EU861519.1|_Odorrana_sp._BBLS-2008_voucher_AMNH_163776_cytochrome_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_(trnG)_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(NDs

 

这个时候把每个序列名称中,物种名后面的信息全部删掉,结果如下

>gi|110227385|gb|DQ650433.1|_Odorrana_aureola

>gi|110227382|gb|DQ650432.1|_Amolops_cf._chapaensis

>gi|197723584|gb|EU861523.1|_Odorrana_chapaensis

>gi|197723572|gb|EU861519.1|_Odorrana_sp._BBLS-2008_

>gi|197723566|gb|EU861517.1|_Odorrana_sp._BBLS-2008

>gi|197723605|gb|EU861530.1|_Odorrana_hmongorum

将其中的“>gi|”替换掉,在“替换为”中什么也不输入,就将它们全部删除了。

然后将“|gb|”“|_”全部替换为逗号“,”

197723620,EU861535.1,Odorrana_junlianensis

197723629,EU861538.1,Odorrana_junlianensis

110227400,DQ650438.1,Odorrana_bacboensis

110227406,DQ650440.1,Odorrana_banaorum

110227427,DQ650447.1,Odorrana_banaorum

110227412,DQ650442.1,Odorrana_banaorum

全选走后“插入”——“表格”——“文本转换成表格”

结果就出来了

197723620

EU861535.1

Odorrana_junlianensis

197723629

EU861538.1

Odorrana_junlianensis

110227400

DQ650438.1

Odorrana_bacboensis

110227406

DQ650440.1

Odorrana_banaorum

110227427

DQ650447.1

Odorrana_banaorum

110227412

DQ650442.1

Odorrana_banaorum

 

 



https://blog.sciencenet.cn/blog-508298-497173.html

上一篇:SCI文章中用于含蓄表达观点的词汇或短语
下一篇:SCI文献中与进化、适应有关的一些词汇及短语
收藏 IP: 210.75.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 09:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部