||
典型的转录因子功能示意图(Schematic of a prototypical TF).
转录因子一般具有两种结构域:
1. DNA-binding domain(DBD): DNA结合结构域。负责结合基因组调控区的DNA序列。
2. Effector Domain(s):调控效应区结构域。
调控转录因子活性。
介导蛋白与蛋白互作(PPI)。
具有调节组蛋白相关底物的酶学活性。
###################################################################
纵轴:转录因子个数。横轴:转录因子家族类别。
插图展示了 C2H2-ZF结构域的数目分布,以及每类效应物结构域,如:KRAB, SCAN, 或 BTB结构域等等。
“Classic” 经典的意思:非常同源并具有保守序列的SP KLF EGFLI GLIS, ZIC, 和 WT蛋白等等。
转录因子家族类别基础注释:
1. Homeodomain:
同源异型结构域。由同源框编码的60个氨基酸序列。
蛋白功能注释:同源结构域是一种高度保守的DNA结合基序,存在于从酵母到人类的各种物种中的多种转录因子中。 这些基因特异性转录因子在发育和成体稳态中起关键作用,因此,任何与这些蛋白相关的生殖系突变都可能导致许多先天性异常。
2. bHLH:
Basic Helix-Loop-Helix (bHLH) 一种蛋白结构基序:碱性螺旋-环-螺旋的二级结构组合。
蛋白功能注释:bHLH在细胞发育或细胞活性中起重要作用。其中的BMAL1-Clock是分子生物钟中的核心转录复合物。其他基因,如c-Myc和HIF-1,由于它们对细胞生长和代谢的影响,已经被认为与癌症有关。
立体结构特征:其由两个α-螺旋连接组合而成。一般来说,包括这个结构的转录因子是二聚体,每个转录因子都有一个螺旋,螺旋中含有促进DNA结合的碱性氨基酸残基。通常,一个螺旋是比较小的,但是含有环路的话,可以通过灵活折叠和包装另一个螺旋形成二聚体。较大的螺旋则通常含有DNA结合区域,发挥功能。
结合DNA特征:bHLH蛋白通常与一类 “CANNTG” 的序列结合。典型的DNA结合区称:“E-box”是CACGTG(回文)。然而存在一部分bHLH转录因子,尤其是bHLH-pas家族的转录因子,可与非回文序列结合,但其结构类似于E-box。
bHLH的转录因子可与其他bHLH的转录因子形成“均二聚”或“异二聚”,每种二聚体都具有特定的功能。
3. bZIP:
碱性亮氨酸拉链域(bZIP域),存在于许多DNA结合真核蛋白中。
立体结构特征:其包含一个介导序列特定的DNA结合特性的区域,以及连接(二聚)两个DNA结合区域所需的亮氨酸拉链。DNA结合区域通常为碱性氨基酸,如精氨酸和赖氨酸。然而包含这种特殊结构的蛋白质为转录因子。
蛋白功能注释:bZIP转录因子存在于所有真核生物中,是二聚体转录因子最大的家族之一。2008年的一项发展研究显示,所有植物最近的共同祖先的基因组编码了4个bZIP基因。bZIP转录因子之间的相互作用众多且复杂,在上皮组织的癌变发展、内分泌组织细胞合成类固醇激素、影响生殖功能的因子等影响人类健康的多种现象中发挥着重要作用。
4. Forkhead:
蛋白功能注释:FOX (Forkhead box)蛋白是一类转录因子家族,在调节细胞生长、增殖、分化和长寿相关基因的表达方面发挥着重要作用。许多FOX蛋白对胚胎发育很重要。FOX蛋白还具有开创性的转录活性,在细胞分化过程中能够结合固缩状染色质。
立体结构特征:FOX蛋白的定义特征是”叉头区“(果蝇发育的某类特征),蛋白是由80-100个氨基酸组成的序列,与DNA结合形成一个基序。这个叉头基序也被称为有翼螺旋,这是由于在蛋白质结构域的环状蝶形外观。“叉头蛋白”是螺旋-旋转-螺旋类蛋白的一个亚群。
5. Nuclear receptor:
核受体具有直接与DNA结合并调控邻近基因表达的能力,因此这些受体被归为转录因子。
蛋白功能注释:是一类负责感应类固醇、甲状腺激素和某些其他分子的蛋白。在互作反应中,这些受体常常与其他蛋白质一起调节特定基因的表达,从而控制机体的发育、稳态和代谢。
核受体对基因表达的调控通常只在配体(一种影响受体行为的分子)存在时发生。更具体地说,与核受体结合的配体导致受体构象的改变,从而激活受体,导致基因表达的上调或下调。
6. HMG/Sox:
Sry-related HMG box (Sox) transcription factors
在发育和决定细胞命运方面发挥着多方面的作用,具有性别决定和颅面部、神经和心血管发育等多种功能。
结合DNA特征:Sox蛋白通过其HMG结构域与保守基序(A /T)(A /T)(CAA(A/T)G结合,发挥转录因子的功能。
7. Ets:
在分子生物学领域,Ets (E26 transformation-specific or E-twenty-six)家族是转录因子家族中最大的家族之一,这是动物特有的。人类有29个Ets基因,小鼠有28个,秀丽隐杆线虫有10个,果蝇有9个。该家族的创始成员被确认为白血病病毒E26转导的基因。家族成员参与了不同组织的发育以及癌症的进展。
结合DNA特征:Ets家族成员都是通过一个高度保守的DNA结合域,即ETS域来识别的。ETS域是一个类似翅膀状的螺旋-转角-螺旋结构,通过一个中心GGA(A/T) DNA序列与DNA位点结合。除了DNA结合功能,有也研究表明Ets结构域也参与蛋白质与蛋白质的相互作用。
8. T-box:
T-box 是在发育生物学中对“肢体”和“心脏”发育起关键作用的一类转录因子。
立体结构特征:蛋白质包含一个保守序列的区域,约有200个氨基酸长,编码一个特定序列的特定DNA结合域(T-box域)。这些蛋白质是控制发育途径的转录因子。这个家族的原型是小鼠短尾(或T)基因产物。
9. AT Hook:
AT-hook,一种DNA结合基序的“钩子”状的蛋白结构域。结合AT富集的DNA序列。
立体结构特征:该DNA结合基序由脯氨酸 - 精氨酸 - 甘氨酸 - 精氨酸 - 脯氨酸的保守的,回文的核心序列组成。
AT-hook与富含腺嘌呤 - 胸腺嘧啶(AT)的DNA的小沟结合,因此名称为AT。
AT-hook的核心序列的最佳结合序列是AAAT或AATT或(ATAA)n或(TATT)n的重复。
其中HMGA蛋白含有三个AT-Hook结构域,有些蛋白含有的AT-hook可多达30个。
10. Homeodomain+POU:
POU蛋白是一种真核转录因子,包含一个偶体DNA结合域,称为POU结构域。
P - the Pituitary-specific Pit-1:垂体特异性Pit-1。
O- the Octamer transcription factor proteins Oct-1 and Oct-2。
(八聚体序列为ATGCAAAT) :八聚体转录因子蛋白Oct-1和Oct-2。
U- the neural Unc-86 transcription factor from Caenorhabditis elegans:秀丽隐杆线虫神经Unc--86转录因子。
功能及重要性:POU家族的功能都与神经内分泌系统的功能以及机体的发育有关。可调控某些基因,包括免疫球蛋白轻链和重链(Oct-2),和营养激素基因,如催乳素和生长激素基因(Pit-1)
11. Myb/SANT:
Myb/SANT 一类含有DNA 结合域的蛋白。
逆转录病毒癌基因v-myb及其细胞对应产物c-Myb编码核dna结合蛋白。在Myb中,由三个串联重复序列组成的最保守区域之一被证明参与了dna结合。
SANT结构域存在于核受体辅抑制因子和许多色素重构复合物的亚基中。它与Myb相关蛋白的dna结合域具有很强的结构相似性。它们都由三个字母螺旋的串联重复序列组成,这些字母螺旋排列在一个螺旋-转角-螺旋基序中,每个字母螺旋包含一个庞大的芳香残基。尽管总体相似,但也存在差异,表明SANT域在功能上不同于规范Myb的DNA结合域。
Myb/SANT结构域可分为三组: Myb型HTH结构域(与DNA结合)、SANT结构域(蛋白-蛋白相互作用模块)和Myb样结构域。
12. THAP finger:
THAP-type zinc finger
存在于动物中,含有90
个残基结构域。THAP家族的原型,具有zinc-dependent sequence-specific
DNA结合活性和识别DNA目标达成共识的11个核苷酸序列,THAP-type zinc
finger可以在一个或多个副本,可以与其他相关结构域相关联,如C2H2型锌指。
13. CENPB:
Centromere protein B,着丝粒蛋白B又称主着丝粒自身抗原B,是一种高度保守的促进着丝粒形成的蛋白,同时是一种DNA结合蛋白,来自pogo DNA转座子家族的转座子酶。
CENPB是小细胞肺癌的潜在生物标志物。
结构DNA特征:其在N端包含一个螺旋-环-螺旋DNA结合基序,在C端有一个二聚域。DNA结合域识别并结合着丝粒α卫星DNA中的一个17-bp序列(CENP-B box)。该蛋白被认为在间期细胞核和有丝分裂染色体上的特定着丝粒结构的组装中发挥重要作用。它也被认为是一种主要的着丝粒自身抗原,由抗着丝粒抗体患者的血清识别。
14. E2F:
E2F是在高等真核生物中编码转录因子家族(TF)的一组基因。其中E2F1, 2和E2F3a是作为活化因子,E2F3b, E2F4-8的6个作为抑制因子。它们都参与哺乳动物细胞的细胞周期调控和DNA合成。
结合DNA特征:E2Fs作为TFs与目标启动子序列中的TTTCCCGC(或轻微变化的类似序列)位点结合。
15. BED ZF:BED Zinc finger
BED型锌指结构域是以果蝇蛋白BEAF和DREF命名的蛋白质结构域,存在于植物、动物和真菌细胞调控因子和转座酶的一个或多个拷贝中。
锌指是一个大约50到60个氨基酸残基的结构域,其中包含一个具有两个高度保守芳香位置的特征基序,半胱氨酸和组氨酸的共享模式形成锌指,能够结合DNA,从而发挥基因调控功能。
目前已知BED结构域的蛋白质包括动物、植物和真菌的AC1和类hobo转座酶;秀丽隐杆线虫Dpy-20蛋白,一种表皮基因转录调控因子;果蝇BEAF(边界因子相关因子),被认为与染色质绝缘有关;果蝇DREF是S期基因的转录调控因子;还有烟草3af1和番茄E4/E8-BP1,这是两种受乙烯调节的DNA结合蛋白,包含两个BED ZF。
16. GATA:
GAGA,是一类能够与DNA序列“GATA”碱基特征的转录因子。
17. Rel:
The proto-oncogene c-Rel;原癌基因c-Rel是人类中由REL基因编码的一种蛋白质,是NF-κB转录因子家族的成员和包含一个Rel同源域(RHD)N端和两个C端激活域。
c-Rel在B细胞的存活和增殖中起重要作用。REL基因在某些B细胞淋巴瘤中被扩增或突变,包括弥漫性大b细胞淋巴瘤和霍奇金淋巴瘤。
18. CxxC:
CpG 结合蛋白(CGBP)又称CXXC型锌指蛋白1 (CXXC1)或PHD finger and CXXC domain-containing protein 1 (PCCX1),是人类体内由CXXC1基因编码的一种蛋白。
结合DNA特征:在DNA结合域内含有CXXC基序的蛋白质,如CXXC1,可以识别CpG序列并调控基因表达。
19. IRF:
Interferon regulatory factors (IRF) ,调节干扰素转录的蛋白。
通常被用于JAK-STAT信号通路。干扰素调控因子包含约120个氨基酸的保守N端区域,折叠成一个结构,与干扰素基因上游的干扰素共识序列(ICS:interferon consensus sequence )特异性结合。
干扰素调节因子序列的其余部分根据蛋白的精确功能而变化。卡波西肉瘤疱疹病毒,KSHV,是一种癌症病毒,它编码四种不同的IRF样基因,包括vIRF1,这是一种转化癌蛋白,抑制1型干扰素活性。
此外,IRF基因的表达受启动子DNA甲基化的表观遗传调控。
20. SAND:
SAND蛋白质结构域是以蛋白质家族中的一系列蛋白质命名的:Sp100, ire-1, NucP41/75, deaf1。
其定位于细胞核内,在染色质依赖性的转录调控中起重要作用,存在于真核生物中。
21. SMAD:
SMADs(或Smads)由一系列结构相似的蛋白组成,是转化生长因子(TGF-B)超家族受体的主要信号转导因子,对调节细胞发育和生长至关重要。
SMAD大约有400到500个氨基酸,由氨基和羧基末端的两个球状区域组成,由一个连接区域连接。这些球状区域在R-Smads和Co-Smads中高度保守,在N端称为Mad同源性1 (MH1),在C端称为MH2。
结合DNA特征:MH1结构域主要参与DNA结合,而MH2则负责与其他smad的相互作用,以及识别转录辅激活因子和辅抑制因子。
R-Smads和Smad4通过MH1结构域与多个DNA基序相互作用。这些基序包括CAGAC及CAGCC变体,以及5bp识别序列GGC(GC)|(CG)。
蛋白功能注释:受体磷酸化的R-Smads可以通过MH2结构域,在体外与Smad4形成同源三聚体和异质三聚体。一个Smad4三聚体和两个受体磷酸化的R-Smads被认为是主要的效应器TGF-β转录监管。
MH1和MH2之间的连接区不仅是连接体,而且在蛋白功能和调控中起着重要作用。具体来说,R-Smad在细胞核的连接域被CDK8和9磷酸化,这些磷酸化调节Smad蛋白与转录激活因子和抑制因子的相互作用。
此外,在这一磷酸化后,连接体经过GSK3的第二轮磷酸化,标记Smads以泛素连接酶识别它们,并针对它们进行蛋白酶介导的降解。转录激活因子和泛素连接酶都含有成对的WW结构域。这些结构域与存在于R-Smad连接子中的PY基序以及位于基序附近的磷酸化残基相互作用。事实上,CDK8/9和GSK3产生的不同磷酸化模式定义了与转录激活因子或泛素连接酶的特定相互作用。
22. HSF:
Heat shock factors (HSF),热休克因子,是热休克基因的转录激活因子。
结合DNA特征:这些激活因子与整个基因组的热休克序列元件(HSE)特异性结合,其识别序列是由三个相反方向的“AGAAN”基序或其退化版本组成的串联阵列。
蛋白功能注释:在非胁迫条件下,果蝇HSF是核定位的非结合单体,而热休克激活则导致三聚体的形成并与HSE结合。
热休克序列元件从酵母到人类高度保守。
23. MBD:
Methyl-CpG-binding domain,CpG岛甲基化结合域。
结合DNA特征:DNA甲基化是真核生物基因组的主要修饰,在哺乳动物的发育过程中起着重要作用。人蛋白MECP2、MBD1、MBD2、MBD3和MBD4由一个甲基-CpG结合域(MBD)关联存在的核蛋白家族组成。除MBD3外,这些蛋白质都能够特异性地与甲基化DNA结合。MECP2、MBD1和MBD2也能抑制甲基化基因启动子的转录。这些基因编码的蛋白质可能作为生物学产物甲基化信号的媒介。
有报道称,MBD2和MBD3根据其甲基化CpG位点的选择性结合,将NuRD复合物招募到DNA区域。因此,MBD2/NuRD和MBD3/NuRD定义了两种不同的蛋白复合物,它们具有不同的生化和功能特性。
24. RFX:
the regulatory factor X,调节因子X (RFX)基因家族的成员之一,它编码的转录因子包含五个保守域,包括高度保守的中心位置的翅状螺旋DNA结合域,以及位于序列C端区域的二聚域。
该蛋白与MHC II类基因的Xbox结合,影响其基因的表达。此外,它还可以与乙肝病毒基因表达所需的反向重复结合互作。
25. CUT+Homeodomain:
CUT,是一种DNA结合基序,可以独立结合,也可以与同源域协同作用,通常位于CUT domain 下游。
其表现出两种DNA结合模式,一种依赖于同源域,另一种依赖于将其从CUT domain分离出来的连接子,还有两种依赖于同源域的转录激活模式。
26. DM:
DM domain,DM结构域是在黑腹果蝇的双子囊蛋白中首次发现的一个蛋白质域,在秀丽隐杆线虫的蛋白质中也可见。在果蝇D. melanogaster中,双性基因通过产生编码相关性别特异性多肽的选择性剪接mRNA来控制体细胞性别分化。
这些蛋白被认为是下游决定性别基因的转录因子,尤其是在成神经细胞分化和卵黄蛋白基因转录方面。通过对DSX DM结构域的核磁NMR共振分析,我们发现了一个新的锌模块,其中包含“交织”的CCHC和HCCC锌结合位点。DNA的识别需要羧基端基尾与目标序列的小凹槽相接触。
27. STAT:
Signal transducer and activator of transcription(STAT),信号转导因子和转录激活因子。是介导细胞免疫、增殖、凋亡和分化的细胞内转录因子。主要由膜受体相关的Janus kinases (JAK)激活。这一通路的失调在原发性肿瘤中经常被观察到,并导致血管生成的增加,从而提高肿瘤的存活率和免疫抑制。
所有STAT家族蛋白都有一个共同的结构基序,包含一个N结构域,螺旋结构域、DNA结合域、连接子、Src同源性2 (SH2)和一个C端反活化结构域。N端和SH2结构域都介导同源或异质二聚体的形成,而线圈结构域的功能部分是作为核定位信号(NLS,nuclear localization signal )。
STAT的转录活性和DNA结合分别通过反式激活域和DNA结合域决定。
28. ARID/BRIGHT:
the ARID domain (AT-rich interaction domain; also known as BRIGHT domain)
一种DNA结合基序。
在真菌、植物、无脊椎动物和脊椎动物后生动物中都发现了含有ARID/BRIGHT domain。ARID编码基因参与多种生物学过程,包括胚胎发育、细胞谱系基因调控和细胞周期调控。
虽然ARID/BRIGHT domain和含ARID的蛋白在转录调控中的具体作用还有待阐明,但它们包括正转录调控和负转录调控,并可能参与染色质结构的修饰。
ARID结构域的基本结构是由β链,环或匝分开组合而成的六个α-螺旋,但其结构化区域可在六个α-螺旋的任一端或两端延伸至另外的螺旋。根据原序列同源性,可以将它们划分为三个结构特征:由六个螺旋组成的核结构域组成的最小ARID;以N端-螺旋结构补充核心结构域的ARID;以及包含核心结构域和在其N和C端额外的α-螺旋的延伸ARID。
结合DNA特征:人SWI-SNF复合物蛋白p270是一种具有非序列特异性DNA结合活性的ARID家族成员。ARID共识序列结构特征在p270和酵母SWI1中是共同的,表明p270是人类SWI1的结合蛋白。约100个残基和序列存在于这系列蛋白中,这些蛋白与细胞生长、发育和组织特异性基因表达的调控密切相关。虽然大约12个ARID可以从数据库搜索,发现到目前为止,只有BRIGHT (B-cell-specific基因表达的一个调控子),dead ringer(黑腹果蝇基因正常发展所需的产物),和MRF-2(抑制巨细胞病毒增强子表达)分析了他们对应的DNA结合特性。每个都优先绑定到AT-rich位点。相比之下,p270在其DNA结合活性上没有表现出序列偏好,从而证明了AT-rich结合并不是ARID的固有特性,ARID家族蛋白可能参与了更广泛的DNA相互作用。
29. Grainyhead:
Grainyhead 蛋白,是一种结合DNA的转录因子。
GRHL2,Grainyhead-like protein 2,是在初级神经元形成和上皮细胞发育中发挥重要作用的转录因子。
结合DNA特征:直接与DNA 识别序列:5'-AACCGGTT-3'结合,对不同的靶基因起激活和抑制作用(通过相似性互作)。
蛋白功能注释:在角质形成细胞中,GRHL2在细胞增殖过程中起端粒酶激活作用,通过与TERT启动子区结合,抑制DNA在5’-CpG岛的甲基化,调控TERT表达,干扰DNMT1酶活性。
30. MADS box:
MADS box是一种保守的DNA序列基序。含有这种基序的基因称为MADS-box基因家族,通常作为转录因子。
结合DNA特征:MADS与DNA结合的识别序列为CC[A/T]6GG高度相似的DNA序列,称为CArG-box。
31. AP-2:
Activating Protein 2 (AP-2),一种DNA结合基序,是一类在早期发育过程中对调控基因表达起着至关重要的作用的转录因子。
结合DNA特征:这一类与DNA识别序列:GCCNNNGGC结合,并可激活靶基因转录。
蛋白功能注释:在哺乳动物中已鉴定出AP-2的四种不同亚型:AP-2α、β、γ和δ。每个家族成员都有一个共同的结构,在N端区域富含脯氨酸/谷氨酰胺的结构域(proline/glutamine-rich domain),负责转录激活;在C端区域含有helix-span-helix domain,介导二聚和位点特异性DNA结合。
32. CSD:
the cold-shock domain(CSD),一种核酸结合基序,在原核和真核DNA结合蛋白中发现的约70个氨基酸的蛋白结构域。
部分CSD与RNP-1RNA结合基序高度相似,可能参与翻译偶联mRNA的转化。
33. Homeodomain+PAX:
Paired box (Pax) ,组织特异性转录因子。
立体结构特征:包含一个配对结构域,通常是一个结构域,或者在四个家族成员(PAX3、PAX4、PAX6和PAX7)的情况下,形成个完整的同源结构域。也有可能以八肽的组合存在。
###################################################################
人源转录因子DBD数值特征:
78种转录因子具备多重DBDDNA结合结构域结构。
731类转录因子具备C2H2锌指结构域。
719类转录因子具备单DBD结构。
###################################################################
辅助结构域(非DNA结合结构域)的数目:
600多中转录因子不具备 辅助结构域。
近600多种转录因子具备单一的辅助结构域。
150多种转录因子具备两个的辅助结构域。
近150多种转录因子具备单一的辅助结构域。
多于4个辅助结构域的转录因子蛋白种类很少。
本文源自:The Human Transcription Factors (Cell, 2018)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 06:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社