|||
如何使用R语言搜索DNA序列中的非碱基符号
熊荣川
六盘水师范学院生物信息学实验室
http://blog.sciencenet.cn/u/Bearjazz
都知道在设计引物时,为了增加引物的广谱性,常常会使用简并引物。其实,在我们从Genbank中下载的很多序列常常有许多位置上并非碱基符号,有些时候这些符号也代表一定的简并信息。另外在并对完序列之后,许多位置上常常会出现“-”和“?”等符号。当我拿到一条序列时候,我们很想知道序列中有没有除了碱基以外的符号。下面我们就通过R语言中的unique函数来实现这一功能。
> |
data <- readLines("D:\ziliao\zhuanye\R bear\isk4.fastr") |
导入fastr格式的序列 |
> |
data <- strsplit(data,'') |
分割 |
> |
data <- unlist(data) |
打散成为单字符元素的字符向量 |
> |
unique(data) [1] "C" "G" "T" "A" "-" "?" "N"
|
去掉重复,搜索到非碱基符号 |
注:关于fastr格式,参考我们的博文
http://bbs.sciencenet.cn/home.php?mod=space&uid=508298&do=blog&id=553655
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 10:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社