沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

如何使用R语言搜索DNA序列中的非碱基符号

已有 4799 次阅读 2012-4-5 14:16 |个人分类:我的研究|系统分类:科研笔记| R语言, 搜索, DNA序列, 非碱基符号

如何使用R语言搜索DNA序列中的非碱基符号

 

 

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

都知道在设计引物时,为了增加引物的广谱性,常常会使用简并引物。其实,在我们从Genbank中下载的很多序列常常有许多位置上并非碱基符号,有些时候这些符号也代表一定的简并信息。另外在并对完序列之后,许多位置上常常会出现“-”和“?”等符号。当我拿到一条序列时候,我们很想知道序列中有没有除了碱基以外的符号。下面我们就通过R语言中的unique函数来实现这一功能。

data <- readLines("D:\ziliao\zhuanye\R bear\isk4.fastr")

导入fastr格式的序列

data <- strsplit(data,'')

分割

data <- unlist(data)

打散成为单字符元素的字符向量

unique(data)

[1] "C" "G" "T" "A" "-" "?" "N"

 

去掉重复,搜索到非碱基符号

 

注:关于fastr格式,参考我们的博文

http://bbs.sciencenet.cn/home.php?mod=space&uid=508298&do=blog&id=553655



https://blog.sciencenet.cn/blog-508298-555633.html

上一篇:如何使用R语言批量导入表格数据
下一篇:一段可以获取DNA反向序列的R语言函数代码
收藏 IP: 210.75.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-12 11:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部