生物信息学 之 计算表观遗传学分享 http://blog.sciencenet.cn/u/hongbo919 森罗万象是表观, 追根溯源系遗传。 计算精研千淘漉, 天道酬勤志更坚。

博文

生物信息学技术 之 如何进行物种间同源序列分析

已有 4793 次阅读 2015-11-27 10:22 |个人分类:科研经验|系统分类:科研笔记

随着生命科学的发展,人们越来越关注基因或调控元件的物种间保守性,如何获取这些同源序列则成为生物信息学分析的常见内容。现将这方面的经验总结如下,希望对大家有所帮助!


 图文并茂版,请下载:

Homologous sequence analysis.pdf

——————————————————————————————————

 文字版


>gi|341926217|ref|NR_040616.1| Musmusculus RIKEN cDNA A130077B15 gene (A130077B15Rik), long non-codingRNA

 

第一步:根据NR_040616找到该基因在小鼠(mm9)中的基因组位置:

 

RefSeq Gene A130077B15Rik

RefSeq: NR_040616.1   Status: Predicted

Description: Mus musculus RIKEN cDNA A130077B15 gene  (A130077B15Rik), long non-coding RNA.

Entrez Gene: 319272

PubMed on Gene: A130077B15Rik

mRNA/Genomic Alignments

BROWSER | SIZEIDENTITY CHROMOSOME  STRAND    START    END              QUERY     START  END  TOTAL

-----------------------------------------------------------------------------------------------------

browser |  2547  100.0%        10     - 122002079 122006947             NR_040616     1 2547  2547


View details of parts of alignment within browser window.

Position: chr10:122002079-122006947

Band: 10qD2

Genomic Size: 4869

Strand: -

Gene Symbol: A130077B15Rik

 

第二步:利用该位置(chr10:122002079-122006947)在人的基因组中寻找同源序列

网站:http://genome.ucsc.edu/cgi-bin/hgLiftOver


点击Submit?

 

点击View conversions

 

会下载一个后缀为bed的文件,用文本打开,后有一个位置,即该基因在人类基因组中的同源序列的位置:chr12         63451868         63452768

 

第三步:根据位置查看其在人类基因组的情况:

网址:

http://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=455296151_ME72VQ0aUTgj9KJwsRJWQSKaQ6fF&clade=mammal&org=Human&db=hg19

 

点击submit,结果发现该区域在人类中并无基因


把当前窗口放大十倍后,会在附近找到一个Ensemble基因:

EnsemblGenes (ENST00000553036 - Ensembl 75)


 

Ensembl Gene Link: ENSG00000257664

Ensembl Transcript: ENST00000553036

Ensembl Protein:

Gene Name: RSL24D1P5

Ensembl Type: processed_pseudogene


Position: chr12:63449055-63449545

Band: 12q14.2

Genomic Size: 491

Strand: -

Gene Symbol: ENSG00000257664

CDS Start: none  (non-coding)

CDS End: none  (non-coding)

Links  to sequence:


Non-protein coding gene or gene       fragment, no protein prediction available.

Predicted       mRNA from       genomic sequences

Genomic       Sequence from       assembly

 

提示是一个假基因。

 

第四步:获取人类同源的序列:

位置:chr12   63451868         63452768

网站:https://usegalaxy.org/

首先提交位置:


将以上位置粘贴到上面的框中,物种选择hg19


点击Start

在窗口右侧会出现刚刚输入的位置:


获取同源序列:点击左侧的工具条:

 

默认输入了最新导入的位置:


点击Execute,结果在右侧结果框展示:


 

点击保存按钮下载序列即可:

>hg19_chr12_63451868_63452768_+ 63452768

GACTTATGGTGAAAGCTGAGTGTAGGCAAATCCTGGCTTGGGGCATGATG

GTGAGAGCAGGGGTGATTGGGGACTGGAGAAGAAACTTTGAGcatgtatt

ctcaactagggcaatcttgcccccagtggggcgaaacttggttgatgaaa

ctaggaggcaaaaatacctcattctttatgcataggcacagatatacagt

atatctattgtattaaaatattatgagagtgatgattagtaaaaaatgtc

taaaaggctggtgggaggtggaggccgtaatgaagaaaggttaagaGGTA

GTGACTGAGAGGAAAAGTAGTTCTTCACAAGGCACTCAGCTGCCTAGAAA

TGACCCAATTTAAGAACCTCTGTTCTTAAAAAGGGAAATATTCATTTTTA

AAGGATATTTCCAATGATAGTCCTTTGGAGTGGAGGTTATAGAATAAGTT

TCTCTCATTTTCTTTTCTACATCTACCTTTCTAGGATTTCCAGCACAGAG

TACAGCACAGGATAAAGGTCTGAATCAGAAATGACAGCCTGCTTATATTT

GTGAAAAGTTAAATTAGGCTTTGAAATGATGACCAGCATCATTGTTGATG

AGACGACAATGTAGattcattggcatctattacatgttaggtactttgtc

tatggttaccaccttagttaacataaccaccctgcagaataggtatatta

tccccagctaagcagcaattatgtgccgaaccagaatgtgaacccaggtc

tgtgtgactctcaaggagatacactttccactggaccacaccattcctcA

TGAAGCAAACAGTTCAGATGAAGGGTCCCTGGAAAGCCCTCTTGTTCCTT

ACAGAAGGTTTTTGCTTCTCTGGAGTTTTGACCTTGGATGCTCCTTTAGG

 

 

至此就对小鼠基因组的一个lncRNA在人类基因组中的同源性进行了分析,可以利用这些信息研究其在人类同源序列上的调控等等。  


 

——————————————欢迎点赞————————————————
               哈尔滨医科大学  刘洪波  (hongbo919@gmail.com)
——————————————欢迎转载————————————————


推荐阅读:从一则招聘启事看生物信息研究者应掌握的十种能力





http://blog.sciencenet.cn/blog-97949-939009.html

上一篇:中国科协发布 《发表论文的“五不”行为守则》之我见
下一篇:2016年度国家自然科学基金项目指南——尝鲜版

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-7-3 06:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部