ENCODE项目联盟牵头(The ENCODE Project Consortium)、美国斯坦福大学Michael P. Snyder研究组在Nature发文题为Perspectives on ENCODE,对ENCODE计划的最新进展进行了总结。ENCODE计划全称是The Encylopedia of DNA Elements,意在揭开人类基因组功能元件的全面图谱。该图谱中包括基因、与基因调控相关的生化区域以及转录本亚型等内容。其中作为候选的顺式调控元件的位点可能会基因表达调控方面发挥作用【1】。目前ENCODE计划已经扩展到生物模型特别是小鼠之中。在ENCODE的第三阶段,该计划已经分别在人类基因组和小鼠基因组中生成了近100万个和超过30万个顺式调控元件的注释,这些注释为科研界将提供宝贵的参考资源。
一、ENCODE计划第三阶段的纲领与总结 人和小鼠的基因组包含指导RNA和蛋白质表达的指令并控制它们产生的时间、幅度以及和细胞内环境。为了更好地描述这些元素,ENCODE计划的第三阶段扩展了RNA转录、染色质结构和修饰、DNA甲基化、染色质环以及转录因子和RNA结合蛋白的结合特点的细胞和组织库的分析。在该文章中,对ENCODE第三阶段产生了5992个新的实验数据图谱进行了总结,其中包括对小鼠胎儿发育的系统测定。所有数据都可以通过ENCODE的门户网站获得。同时,通过整合与基因调控相关的DNA元件的注释,ENCODE计划的第三阶段还开发了一个顺式调控元件相关注释信息表并构建了一个网站(SCREEN; http://screen.encodeproject.org),提供对该资源灵活的、用户定义的访问。总的来说,蛋白质编码与非编码基因数据与顺式调控元件注释信息表为科学界建立对人类和小鼠基因组组织和功能的更好理解提供了广阔的资源。 二、染色质相关蛋白占位图谱(Occupancy maps) 美国哈森阿尔法生物技术研究院Eric M. Mendenhall研究组与Richard M. Myers研究组合作发文题为Occupancy maps of 208 chromatin-associated proteins in one human cell type,揭开了人类细胞中染色质相关蛋白在染色质上的占据图谱信息。转录因子是DNA结合蛋白,在基因调控过程中发挥着关键作用。转录因子在全基因组上的占据图谱对于理解不同转录因子的基因调控以及其对不同生物过程的影响至关重要。在本文中,作为ENCODE计划的一部分,作者们使用人HepG2细胞系对208个的染色质相关蛋白进行了染色质免疫共沉淀高通量测序。这些转录因子包括171个转录因子和37个转录辅助因子和染色质调节蛋白并代表了HepG2细胞中近四分之一的染色质相关蛋白的表达。该分析为ENCODE计划的进一步完善提供了重要信息,同时也为基因调控网络提供了一个更完整的概述。 三、DNase I超敏位点图谱 美国西雅图阿尔提乌斯生物医学科学研究所John Stamatoyannopoulos与Wouter Meuleman研究组发文题为Index and biological spectrum of human DNase I hypersensitive sites,作为ENCODE计划第三阶段的一部分揭开了人类基因组中DNase I超敏位点图谱。DNase I超敏位点是调控DNA序列的遗传学标记,包括与疾病以及表型相关的遗传变异信息。该文章通过对733个人类生物样品建立了高分辨率DNase I超敏位点图谱,通过整合这些数据作者们对人类基因组序列中大约360万个DNase I超敏位点进行描述和数字索引,为调控DNA提供了一个共同的坐标系统。另外该工作还展示了这些图谱中人类基因组的顺式调控单元,这些调控单元以非常高的密度出人意料地编码不同的细胞和组织选择性调控程序。总的来说,该研究成果为以DNase I超敏位点图谱为人类调控DNA创建了一个通用的、可扩展的坐标系统和查询表并为人类基因调控的结构提供了一个新的全局视角。 四、人类转录因子足迹图谱 美国西雅图阿尔提乌斯生物医学科学研究所John Stamatoyannopoulos与Jeff Vierstra研究组发文题为Global reference mapping of human transcription factor footprints,作为ENCODE计划第三阶段的一部分揭开了人类基因组中转录因子足迹(Transcription factor footprints)图谱。基因组DNase I酶足迹技术能够定量的、以核苷酸分辨率水平的对染色质内的转录因子占用位点进行解析。在该工作中,作者们为了全面绘制转录因子足迹图从243种人类不同细胞和组织类型和状态中绘制了高密度的DNase I酶解图谱,并对大约450万个在核苷酸分辨率下编码转录因子占用的紧密基因组元件信息进行总结。该工作为基因调控机制和功能性遗传变异的全局和核苷酸水平上的精确分析提供了一个框架。 五、人类主要细胞种类的转录程序图谱 西班牙巴塞罗那科技学院Roderic Guigó研究组与冷泉港实验室Thomas R. Gingeras研究组合作发表预印本文章题为A limited set of transcriptional programs define major cell types,为人体内主要细胞类型的转录程序进行了解析。目前ENCODE计划已经为人体不同位置的多种原代细胞制作了RNA测序数据。这些原代细胞的RNA测序结果聚类表明,人体内的大多数细胞都具有一些广泛的转录程序,这些程序定义了五种主要的细胞类型:上皮细胞、内皮细胞、间充质细胞、神经细胞和血细胞。该工作为人类细胞的不同分类和定义提供了新的参考。 六、黏连蛋白介导的染色质相互作用图谱 美国斯坦福大学医学院Michael Snyder研究组发文题为Landscape of cohesin-mediated chromatin loops in the human genome,揭开了黏连蛋白介导的染色质环在人类基因组中的景观。较远距离基因调控元件之间的物理相互作用在调控基因表达中起着关键作用,但这些相互作用在细胞类型之间的程度不同,因此对于细胞类型特异性基因表达的机制尚不清楚。 为了解决这些问题,作者们利用配对末端标记测序技术(Chromatin interaction analysis by paired-end tag sequencing,ChIA-PET)对染色质相互作用进行分析,绘制了黏连蛋白介导的染色质环形成在人类全基因组中的景观分布,并分析了24种不同人类细胞类型的基因表达。黏连蛋白介导的染色质环图谱补充了构成编码百科全书的各种调控结构图谱,并将有助于支持基因组结构和功能的新兴分析。 七、RNA结合蛋白的结合与功能图谱 美国加州大学圣地亚哥分校Gene W. Yeo研究组、UConn Health的Brenton R. Graveley研究组、麻省理工学院Christopher B. Burge研究组、加拿大IRCM研究所Eric Lécuyer研究组与加州大学圣地亚哥分校Xiang-Dong Fu(付向东)研究合作发文题为A large-scale binding and functional map of human RNA-binding proteins,揭开了人类基因组中RNA结合蛋白的大规模结合和功能图谱。许多蛋白质通过与基因组特定区域结合来调控基因的表达。在该工作用,作者们对识别人类基因组中RNA元件的RNA结合蛋白的建立了新的数据图谱,作为ENCODE计划的第三阶段的一部分内容。RNA元件作为RNA结合蛋白的结合位点控制转录后比如对RNA剪接、mRNA的编辑、定位、稳定性以及翻译等过程。作者们对K562和HepG2细胞中大量识别RNA元件的RNA结合蛋白进行了解析,综合使用5种方法整合分析并确定了RNA结合蛋白在体内RNA和染色质上的结合位点、在体外的结合偏好、结合位点的功能和亚细胞定位。这些数据扩展了人类基因组中编码的功能元件的目录,增加了对于RNA结合蛋白在人类基因组表达调控中的全局性认识。 ENCODE计划的顺利进展取决于技术的进步、质量控制以及统一标准。在ENCODE计划的第二阶段高通量测序技术已经全面进驻,而不再是试点实验阶段中使用的微阵列为基础的实验方法。以上七篇工作通过高通量测序技术为ENCODE计划增加了全基因3D相互作用图谱、RNA结合区域等内容,大大扩增对于人类基因组中3D基因组结构以及调控元件功能的认识。而较高要求的质量控制与统一标准使得ENCODE计划在其他的不同计划、不同组织、不同联盟中通用性较强,与其他科学群体形成了强强联合的知识网络。ENCODE计划开放的SCREEN网站也为识别和研究这些基因调控序列以及相关的编码数据和其他注释提供了便捷的获取接口。
模式生物体的研究几乎对生物学的包括基因组的组织和功能的方方面面都产生了重要的影响,因此,除了对于人类基因组研究的ENCODE—人类基因组DNA元件百科全书计划—还增加了对于模式生物尤其是小鼠方面的信息以及在果蝇和线虫等进行的模式生物调控网络百科全书(model organism Encyclopedia of Regulatory Networks, modERN)的相关内容。 在ENCODE计划的第二阶段,通过小鼠ENCODE计划对成年小鼠组织和细胞系的表观遗传特征以及转录特征进行了绘制【1】。该工作是小鼠ENCODE联盟大规模努力的结果,提出了一幅宏大的小鼠基因调控和转录图谱。小鼠ENCODE计划共鉴定出了21,978蛋白编码区域、32,168蛋白质非编码区域、1,192,301染色质开放区域以及722,334个被H3K4me1、H3K4me2、H3K4me3以及H3K27ac组蛋白修饰的区域以及686,294被转录因子结合的区域。 在ENCODE计划的第二阶段,还开展了模式生物ENCODE计划【2,3】,分别在果蝇和线虫的不同发育阶段以及细胞系中对转录组、表观遗传组以及转录因子结合位点等信息进行了检测和整合。这些生物提供了发育过程中详细的基因组特征和转录组图谱的研究机会,这是很难在人类中完成的内容。对这些物种的空间和时间转录组图谱的深入探究,极大地增强了对这两个模式生物基因组的注释。而且对果蝇和线虫基因调控网络的详细绘制为基因组组织和功能的一般原理提供了见解。模式生物ENCODE计划目前为止已经确定了果蝇中超过262个转录因子以及秀丽隐杆线虫中的217个转录因子的相关组学数据【4】。 图1 ENCODE计划第三阶段的在小鼠以及其他模型生物中的工作模式图 在ENCODE计划的第三阶段,科学家们在小鼠胚胎发育的8个阶段以每个阶段多达12个组织的样本中进行了实验,以确定动态组蛋白标记和可及性图谱、DNA甲基化图谱和转录组图谱(图1)。这些潜在调控元件的人类同源基因显著富集于与常见疾病相关的基因变异,为研究人类疾病的分子基础提供了信息。ENCODE计划第三阶段中小鼠相关的数据还包括对于转基因小鼠中两个不同发育时期的三种胚胎组织中调控元件相关的400多个实验。这些系统性的研究结果对于预测体内顺式调控元件的功能与活性大有裨益。除此之外,转录组与表观遗传组学的跨物种比较可以对转录区域以及调控区域的进化信息给出可能的参考数据。顺式调控元件区域的组蛋白修饰模式以及其他的基因组特征在多细胞动物中进化上高度保守。以下将对ENCODE计划第三阶段中小鼠以及其他模式生物与方法学方面的进展进行介绍。 八、小鼠发育过程动态染色质景观动态图谱 美国路德维希癌症研究所任兵研究组与美国劳伦斯伯克利国家实验室Len A. Pennacchio、Axel Visel研究组合作发文题为An atlas of dynamic chromatin landscapes in mouse fetal development,揭开了小鼠胎儿时期不同发育阶段的动态染色质景观。目前ENCODE计划已经建立了哺乳动物发育的相关基因组资源,描绘了从孕期10.5天到出生的8个发育阶段的小鼠组织的包括转录组、甲基化组和染色质状态在内的组学信息。在该工作中,作者们系统性地检测了发育过程中小鼠胎儿期染色质可及性与状态。作者们对组蛋白修饰共进行了1,128次ChIP-seq检测,另外还用ATAC-seq对72个不同组织以及不同发育阶段进行了染色质可及性分析。作者们建立了统一的标准对这些数据进行整合以及注释,描述了在发育基因调控过程中染色质状态和可及性之间的关系。作者们还利用这些数据将增强子与假定的靶基因联系起来,证明了与人类疾病相关的序列变异的组织特异性丰度存在相关性。小鼠ENCODE计划为生物医学研究人员提供了重要参考资源以及在哺乳动物胎儿发育期间染色质动力学方面最全面的观点。 九、小鼠胚胎全组织、单细胞分辨率转录组图谱 美国加州理工学院Barbara J. Wold研究组与Brian A. Williams研究组合作发文题为The changing mouse embryo transcriptome at whole tissue and single-cell resolution,对小鼠胚胎中全组织、单细胞分辨率水平对转录组的动态变化过程进行检测。在哺乳动物胚胎发生过程中,不同的基因表达逐渐建立了各组织和器官系统的同一性和复杂性。在该工作中作者们系统地量化了17个不同的组织和器官从胚胎发育第10.5天到出生的小鼠polyA-RNA,由此产生的发育转录组图谱是由动态细胞分化、体轴和细胞增殖基因构成的全局结构。作者们利用单细胞RNA-seq对组织水平转录组进行解析,发现神经发生和造血过程相关的基因在基因和细胞水平上均占主导地位。进一步地,作者们聚焦于发育中的肢体,使用单细胞RNA数据识别了包括祖细胞和分化细胞在内的25种细胞类型并通过计算推断谱系关系。这些参考数据、计算网络组件和顺式调控元件染色质片段是匹配表观基因组发育矩阵的重要资源,可供研究人员进一步挖掘和整合。 十、小鼠胎儿发育过程的DNA甲基化组图谱 美国萨尔科生物研究所Joseph R. Ecker研究组发文题为Spatiotemporal DNA methylome dynamics of the developing mouse fetus,揭开了不同时空分辨率下小鼠胎儿发育过程中的动态DNA甲基化图谱。胞嘧啶DNA甲基化对哺乳动物的发育至关重要,但对其在发育胚胎中的时空分布的了解仍然有限。作为小鼠ENCODE计划的一部分,作者们从12个小鼠组织或器官中分析了168个DNA甲基化组图谱,这些图谱分别解析了处于从胚胎发生到成年的9个不同发育阶段。通过比较不同发育阶段不同组织或器官的DNA甲基化组,作者们鉴定出1,808,810个基因组区域显示出DNA甲基化的差异。这些时空表观基因组图谱为研究组织或器官进展中的基因调控提供了资源并为与人类发育障碍有关的调控元件的研究提供了起点。 十一、小鼠伪基因数据库 美国耶鲁大学Mark Gerstein研究组发文题为Transcriptional activity and strain-specific history of mouse pseudogenes,揭开了小鼠伪基因(Pseudogenes)的转录活性和细胞系特异性历史。伪基因是基因组重塑的标记。随着最近的细胞系测序和转录组数据的可用性大大扩展,小鼠逐渐成为研究伪基因的理想平台。在该工作中,作者们提供了小鼠中伪基因的全基因组注释(可通过网站mouse.pseudogene.org获取相关资源)。另外作者们还对165个小鼠和303个人类的单一伪基因进行了注释。在大小、生物型分布和家族组成方面,小鼠的总体伪基因库与人类相似。该数据库为进一步揭开基因组功能和基因调控信息提供了伪基因方面的资源。 十二、ENCODE“定制版”癌症基因组资源 美国耶鲁大学Mark Gerstein研究组、芝加哥大学Kevin P. White研究组、丹娜-法伯癌症研究所与哈佛大学公共卫生学院X. Shirley Liu以及美国西北大学Feng Yue研究组合作发文题为An integrative ENCODE resource for cancer genomics,介绍了癌症基因组的ENCODE整合数据库。ENCODE包含数千个功能基因组数据图谱,涵盖数百种细胞类型,为基因组解释提供通用注释。但是,对于特定的研究领域使用特定的注释可能会更有益处。先前,作者们通过利用一些数据丰富对于不同细胞类型的注释,如eCLIP、Hi-C和全基因组STARR-seq来开发这样一个“定制版”注释。癌症作为一种全系统失调的疾病正是这种基于网络的注释的理想应用场景。使用siRNA敲除、基于CRISPR的基因编辑以及荧光素酶分析对相关重要调节因子、调节元件以及基因变体进行有针对性的验证,证明了ENCODE“定制版”资源的重要价值。 十三、ENCODE计划注释纠错工具 美国Broad研究所Noam Shoresh研究组发文题为Detecting sample swaps in diverse NGS data types using linkage disequilibrium,使用连锁不平衡对不同高通量测序数据类型中的样本进行检测。随着基因组数据图谱数量的极速增长,样本标签误贴已经成为一个高风险的问题。为此作者们提出了一种量化样本相关性和检测不同来源数据库的的工具称为交叉指纹检验技术(CrosscheckFingerprint, Crosscheck)。通过对8851个ENCODE计划中ChIP-seq、RNA-seq和DNase-seq数据库进行的交叉检验,可以识别并纠正几十个误标记样本和模糊元数据注释。该检验技术为进一步优化、纠正基因功能和基因调控元件的注释提供了重要工具。 十四、增强子预测模型 美国耶鲁大学Mark Gerstein研究组发文题为Supervised enhancer prediction with epigenetic pattern recognition and targeted validation,开发出了一种新的增强子预测实验模型。增强子是重要的非编码元件,但是一直以来增强子很难进行定性实验。大规模平行检测实验技术首次允许对大量增强子进行表征。在该工作中作者们开发了一个使用黑腹果蝇的STARR-seq技术来创建基于表观遗传特征的框架。作者们将这些表观遗传特征与学习算法相结合可以用于预测增强子。进一步地,作者们确认该模型可以转移到对哺乳动物中的增强子进行预测。该技术对于进一步丰富了ENCODE计划中对基因调控元件的检测的工具。 如今,ENCODE计划的第三阶段获得的数据以及实验方法已经全面向大家开放,该整合数据库对于人类以及多种模式生物的基因组、转录组、表观遗传组、染色质状态组以及顺式调控元件等方面的数据进行了大规模扩充。该数据库并非至善至美,虽然已经发现了许多新的调控元件,但对特定细胞类型或状态具有高度选择性的调控元件的注释仍然落后。此外,虽然许多开放染色质区域已经被绘制出来,但是结合这些序列的转录因子大部分是未知的并且目前少有关于重复序列的分析。最后,尽管转录本异质性和不同亚型已经在许多细胞类型中被描述过,但也仅是在少数细胞类型略见报道。因此,作为ENCODE计划第四阶段的一部分,将会有更多工作投入到对不同细胞类型和组织的分析之中以及对更多转录因子和RNA结合蛋白的结合区域进行描述和注释,看来对人类基因组的全面注释以及功能的全面解析指日可待。