||
mRNA(messenger RNA)信使RNA,是由编码区(CDS)、上游的5’非编码区和下游3’非编码区组成,真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI中mRNA序列实际上是cDNA序列,即经过反转录得到的与RNA序列互补的DNA序列,一般不包括3’多腺苷酸尾巴。一个cDNA序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS),cDNA都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS(coding sequence),这段序列也就是一个ORF区,也就是这个cDNA的ORF序列。参与特定基因转录及其调控的TSS上游序列称为启动子(Promoter),如原核生物在转录起始位点上游-10有一段TATAAT的保守序列,有助于局部解链,在-35有一段TTGACA序列提供RNA聚合酶识别信号,真核生物上游-25到-30TATA决定起始位点,-75位置CAAT与RNA聚合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。
克隆可以简单理解为复制品,例如假设通过提取mRNA,反转录后得到cDNA序列,然后将这段序列转入载体,再通过划线不断的繁殖,就会得到许多装有这段cDNA序列的克隆,实验室为了方便,在给得到的这些克隆起名时,一般会取cDNA序列的名,但实际上在这个克隆里面不仅包括了这个cDNA,还包括了载体的DNA。
STS(sequence-tagged site)序列标记位点,是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,一般长度为200-500bp,一个DNA序列要成为STS,首先序列必须已知,能用PCR方法检测,第二STS必须在基因组上具有唯一的定位点。通过STS可以判断在不同条件下测序得到的DNA序列的准确性。
EST(expressed sequence tag)表达序列标签,是从一个随机选择的cDNA克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA序列。全基因组测序发现基因即昂贵又费时,因为基因组中只有2%序列编码蛋白质,因此可以对真正编码蛋白质的mRNA构建cDNA文库,对cDNA进行测序,得到EST序列,从而发现新基因。
下面以大鼠CTGF基因为例子,小写字母是转录子前后200bp启动子相关序列,大写字母表示的是cDNA序列,也就是转录子,其中蓝色标记的部分为CDS序列,湖蓝色的为转录起始位点,即TSS,加粗带下划线的为起始密码子
agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcaggatcaatccggtgtgagttgatgaggcaggaaggtggggaggaatgcgagg
aatgtccctgtttgtgtaggactccattcagttctttggcgagccggccgcccggagcgtataaaagccagcgccacccgcccagtctcacacagctctt
CTCTCCAAGAAGACTCAGCCAGACCCACTCCAGCTCCGACCCTAGGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCCCAGGAG
CCACCACCTGGAGCGTCCGGACACCAACCTCCGCCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACCCCGCTGTGCGTCCTCCT
GCCGCGCCCCGACCATGCTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCCTTGGTGCTCCTCCTCTGCACCCGGCCTGCCACCGGCCAGGACTGCAGCGC
GCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCCCGCCGGCGTGAGCCTGGTGCTGGACGGCTGCGGCTGCTGCCGCGTCTGCGCCAAGCAGCTG
GGAGAACTGTGCACGGAGCGTGATCCCTGCGACCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCCCCGCCAACCGCAAGATTGGCGTGTGCACTGCCA
AAGATGGTGCACCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTCCAAAGCAGTTGCAAATACCAGTGCACTTGCCTGGATGGGGCCGT
GGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCCTGACTGCCCCTTCCCGAGAAGGGTCAAGCTGCCCGGGAAATGCTGTGAGGAGTGG
GTGTGTGATGAGCCCAAGGACCGCACAGTGGTTGGCCCTGCCCTAGCTGCCTACCGACTGGAAGACACATTTGGCCCTGACCCAACTATGATGCGAGCCA
ACTGCCTGGTCCAGACCACAGAGTGGAGCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCCACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGA
GAAGCAGAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGAAAACATTAAGGTAAATAAATACTCTGCCCCCAGACACTCATTTTCACAG
AATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCCCTTCTTATTATAGGCCTGTTGTCTCCAGAAATATCTAACCATGGAGCTGTCTGGCTAGAA
TGAGAGATGCTGTAACAGCAGCTGCCAGTTTTCCACTACAAAATTCCCCGGGGTGTTAGTTAATACGAGACACTCCAAACGAAGCCATGGCTATTTTTGG
AAAACTGGCGAATGAAACTCCCAGTCTCTCTCCCCTCAGAATATAAACACAAGTCAGATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCC
CGTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGCAAAAAGTGCATCCGGACGCCTAAAATTGCCAAGCCTGTCAAGTTTGAGCTTTCT
GGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTTCTGTGGGGTGTGCACGGACGGCCGCTGCTGCACACCGCACAGAACCACCACACTGCCGGTGGAGT
TCAAGTGCCCCGATGGCGAGATCATGAAAAAGAACATGATGTTCATCAAGACCTGTGCCTGCCATTACAACTGTCCCGGGGACAATGACATCTTTGAGTC
CTTGTACTACAGGAAGATGTATGGAGACATGGCGTAAAGCCAGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTACATCTCATTT
TCTTCTGTAAAAAAACAAAAAGGATTACAGTAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAAACACCCCACCGAAGTGAGAACCGTG
TGTCATTGTCATGCAAATAGCCTGTCAATCTCAGACACTGGTTTCGAGACAGTTTAGACTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACT
AAGGTGAGCCTCCTGGAAGAGTGGAGATGCCAGGAGAAAGACAGGTACTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTGACA
GGGGAGGGACATTATAGCTTGCTTGCAGACAGACCTGCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCAGCTATTCTTTCAGT
AAGAACAGCAGTTTCAGCGCTGACATTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATTAGACTGGACAGCTTGTGGCAAGTGAATTTG
CCGGTAACAAGCCAGATTTTTATGGATCTTGTAAATATTGTGGATAAATATATATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATT
GTTCTTGTTTTAAGTGCTTTTGGAATTTTTAAACTGATAGCCTCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAAACAAAGGA
GATACTGCAGTGGAAACTGTAACCTGAGTGACTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAGTCAGATTTCTAGTAGGAAA
TGTAAAATCACTGTTGGCGAACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTCAGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGA
CTATGACTGGTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACCAAAAGTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTATA
TGaaaggcttggctgctcattcttgtaaactttccttgggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattcactaagatgttta
caaacaactttgatgtgcatgagtcacatgaaatcaatagaattttgcataagcatcccttacaccggaccaagtagacatgagcatcaattatctacat
gg
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 05:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社