沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

fastr格式DNA序列的多序列处理

已有 4646 次阅读 2012-4-7 09:30 |个人分类:我的研究|系统分类:科研笔记| 处理, fastr格式, DNA序列, 多序列

fastr格式DNA序列的多序列处理

 

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

为了在R语言环境中处理,之前我们定义了一种序列格式fastr格式,它是fasta的衍生格式(详见相关博文

http://bbs.sciencenet.cn/home.php?mod=space&uid=508298&do=blog&id=553655

但是,之前我们处理的fastr格式都是单条序列格式,然而我们常常在实际运用中使用多序列的文件,怎样在R语言环境中一次性的自动将多序列的fasta格式DNA序列转化为fastr格式一直是这种格式推广的短板。这里我们发布几条R代码,解决以上问题。

 

 

setwd("D:/ziliao/zhuanye/R bear")

设置工作目录,输入fasta文件所在文件夹

 

data <- readLines('data2.fasta')

导入序列,存为矩阵数据data

 

x=data

传导值给x

 

 

name <- data[grepl('>',data)]

提取各条序列名称,保存在name向量中

 

x[grepl('>',data)]="n"

使用特定的字符来分割个条序列

 

y=x[2]

for (i in 2:length(x))

{

y=paste(y, x[i], sep = "")

}

将序列转化成整体单一字符

 

 

y <- strsplit(y,'n')

分割各条序列

 

y <- unlist(y)

转化为向量格式

这个时候各条序列就保存在y向量的不同单元格中了

 

 

 



https://blog.sciencenet.cn/blog-508298-556303.html

上一篇:一段可以获取DNA反向序列的R语言函数代码
下一篇:Bioedit可以搜索并报告序列的保守区域
收藏 IP: 210.75.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 19:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部