沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

R语言去掉Genbank带NC_的序列号

已有 4438 次阅读 2014-3-26 14:15 |个人分类:我的研究|系统分类:科研笔记| R语言, genbank, 去掉, 带NC_的序列号

R语言去掉GenbankNC_的序列号

 

#作者信息

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

# 预装函数

#Genbank中现在的序列常常有些NC_前缀的序列号。其实这些序列是Genbank审核过的线粒体基因组序列,且往往和作者上传的序列重复(序列号不一样,带NC前缀的基因名称更规范),因此在进行处理分析之前去冗余是必须的,由于原始的序列号没有固定的特征,我们建议去掉带NC_前缀的序列号。下面是相关的R语言函数。

 

#原始代码已在发布24小时后删除。

 

#使用方法

path ="D:……"  > setwd(path)           #设置工作路劲> filelist = dir(path) #如果我们要把所有文件的后缀都去掉

>      mat = matrix(NA,length(filelist),2)

> View(mat)

> mat =      matrix(NA,length(filelist),2)

> for(i in 1:length(filelist)){

+ infile = filelist[i]

+ mat[i,1] = infile

+ Detag.1(infile)

+ mat[i,2] = Detag.NC(infile)

+ }

> View(mat)

> write.csv(mat,file = "基因组数据统计.csv")



 




https://blog.sciencenet.cn/blog-508298-779349.html

上一篇:R语言去掉Genbank序列号的.1后缀
下一篇:R语言怎样下载一篇文章里的所有序列
收藏 IP: 119.78.81.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-10 10:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部