muzi0202的个人博客分享 http://blog.sciencenet.cn/u/muzi0202

博文

微生物基因组研究扫盲系列

已有 2698 次阅读 2021-2-3 21:01 |系统分类:科研笔记

这是一个关于高通量基因组学研究相关基础知识的系列内容,旨在为初步涉入基因组学研究的同学查缺补漏,答疑解惑。如果前期对基本概念都没理解通透,基础没打好,后期会走弯路的。本系列内容涉及基因组学、高通量测序相关基本概念,基因组分析中常见问题等,每期5-10个FAQ,希望对大家有用。

大家有其他相关的问题,可以关注微信公众号:密码子实验室,在后台留言,我们会尽力在下期为您解答。

Q1:简单介绍一下DNA?

A1:DNA,全称脱氧核糖核酸(Deoxyribo Nucleic Acid),是几乎所有生命体的遗传物质(RNA病毒的遗传物质是RNA),其上含有编码所有与生命活动相关的基因。

在真核生物中,DNA存在于细胞核中,与组蛋白结合形成染色体结构。线粒体和叶绿体中也有自己独立的遗传物质,目前常用于研究真核生物的遗传进化和物种分类。

在原核生物中,DNA分布在细胞质中,包括染色体和质粒,上面编码的基因共同影响原核生物的生命活动,同时,质粒和染色体上的可移动元件可以介导遗传物质在不同细胞之间进行转移,是物种进化的重要源动力。

Q2:DNA由什么组成?

A2:DNA的螺旋状双链,摊平看像长长的梯子。最重要的两部分就是梯子两边的“杆”和中间的每一“阶”。
“杆”是由脱氧核糖(五碳糖(Sugar),常用S表示)和磷酸基团(用p表示)连接而成的糖磷酸骨架,它们是DNA的形态框架。
对生物信息分析而言,最重要的是中间的“阶”。将每一阶对半劈开,可以将DNA分成互补的两条链,它们靠每一阶中间的氢键连接在一起。这里彩色的“半阶”,就是核苷酸,共有4种,它们的排列组合(序列)记录了复杂的基因信息。

Q3:核苷酸是什么?

A3:核苷酸是组成核酸(包括DNA和RNA)的基本成分。
4种不同核苷酸,分别为腺嘌呤Adenine(A), 胸腺嘧啶Thymine(T)胞嘧啶Cytosine(C)和 鸟嘌呤Guanine(G),简称ATCG。两两互补:A-T,C-G。
核苷酸的排列“编码”出基因信息,所以常用计算机编程中的基本单位base来称呼它们。中文叫做“碱基”。两两配对的碱基,就是碱基对(base pair)。
假设你得到一条DNA,把它的双螺旋结构压平成梯子状。中间的每一“阶”都是两两配对的碱基对。现在,从中间把梯子左右劈开。将按暴露出来的A/T/C/G核苷酸排列顺序,依次标出,如:ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT,这就是DNA序列。

Q4:DNA双链的正/反是怎么决定的?

A4:DNA的双链中,一条被指定为正链(Forward,或者“+”),另一条为反链(Reverse,或“-”)。简单说,孰正孰反,指定的时候没有什么特别的讲究,就是一拍脑门的事情:最早研究该基因组的科学家决定那条是正,它就是正链。正反一旦决定,为了避免混淆后面都会保持一致。生物学上,正、反链的重要性相同。

Q5:正链=正义链?

A5:正义:sense,反义:anti-sense。
有人常把“正链+”说成“正义链”、“反链-”为“反义链”,其实这是两个不同概念。
DNA链中的磷酸基团一般连在前一个脱氧核糖3’位,和下一个脱氧核糖的5’位,即:3’→(p)→5’→3’→(p)→ 5’……

一般默认DNA链的方向是从5’→3’,因为绝大部分的生理机制都是按这个方向进行的。所以符合5’→3’,方向的称为“正义”,反之就“反义”。

一言以蔽之,正链/反链指的是DNA双链中的哪条,而正义/反义指的是该条链上序列的方向

Q6:什么是DNA测序

A6:这个概念包括了搞清DNA分子构成的多种实验技术。原始测序结果常被保存在FASTA,FASTQ或者uBAM格式里。一般论文发表时,会被要求提供这些原始数据以便读者重复分析结果。

受限于技术原理,一代、二代测序技术并不是对DNA分子本身直接测序,而是基于原始DNA分子,人为地制作一个“文库”,以便把信号放大。但这个过程中可能引入人为的误差,或抹去DNA分子原有的信息。

如今如纳米孔测序等新一代技术则能对DNA原始分子进行直接测序,一定程度是弥补了上述不足,但精度上仍待改良。

Q7:什么是基因组

A7:一个有机体DNA的完整序列称为一个基因组。每个细胞都有一套(或多于一套但近乎相同的)完整基因组拷贝。

由于碱基互补,基因组中A与T、C与G碱基的含量是对应相同的。但AT与GC的比例却可以有很大差异。有些生物的基因组AT含量更高,有些则相反。

基因组中含有让生命体运作的信息。指导编码各种功能蛋白的区域被称为“编码区(coding region)”。近年来发现,很多区域虽不编码蛋白,却负责生成另一些能调控其他生理过程的分子。

基因组在世代中的继承和演变都服从进化规律。一个正常的基因组中有一部分(甚至是大部分)是可能已经失去原有的功能的片段,其中包含着零散的重复片段。曾经这部分不编码分子的片段被称为“垃圾DNA”,但却引来持续的争议。

非编码区DNA能编码出种类繁多的小片段RNA。它们通常很短,不足以编码出结构复杂的功能蛋白,但却对生理过程有重要的调节作用,相关研究近年来也是大火了一把。

一般用Kb (千),Mb(百万)、Gb(十亿)作为单位描述基因组的大小。具体如下:

bp = base pair(s)—一个碱基对

kb (= kbp) = kilo base pairs = 1,000 bp

Mb (= Mbp) = mega base pairs = 1,000,000(100万) bp

Gb = giga base pairs = 1,000,000,000(10亿)bp

注意,这里的单位是碱基对bp,描述的是基因组的长度。这里的Mb,Gb与我们平时说的电脑文件大小、硬盘容量是两个概念。后者的单位是字节byte,指的是文件储存的大小

新冠病毒基因组大小约30kb,大肠杆菌4Mb,人类3Gb,某些蜥蜴可达120Gb。基因组的大小与其复杂程度没有必然的联系。

更多知识干货放送:

微生物基因组研究扫描系列 |1

专题研究 | 生防菌的适应性机制

Python数据分析--print函数

R语言数据分析--reshape2包讲解

微生物基因组研究扫盲系列|1(图4)



https://blog.sciencenet.cn/blog-3445347-1270453.html

上一篇:生物数据高速下载软件-Aspera
下一篇:微生物基因组研究扫盲系列|1
收藏 IP: 112.20.247.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 12:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部