||
FORGEdb:候选功能变异和复杂疾病靶基因识别工具
全基因组关联研究(GWAS)在识别与许多不同疾病和性状相关的遗传位点方面取得了显著成功。截至2022年底,GWAS目录包含了> 23.2万个与> 3000种疾病和性状相关的不同变异。从GWAS中发现的许多位点都是基因间的,位于基因组的非蛋白质编码区域。虽然已经报道了一些变异的功能机制,但大多数基因组位点尚未被仔细研究,对靶基因、通路或作用机制知之甚少。多个报告表明,GWAS变异在调控基因表达的序列中富集。一些研究表明,GWAS变异在细胞和组织特异性调控元件中富集。
为了帮助解释基因调控背景下的GWAS变异,研究人员使用了ENCODE、Roadmap Epigenomics和BLUEPRINT中增强子和其他调控元件的大规模映射数据。一些网络工具,如HaploReg、RegulomeDB等已经被开发出来,以帮助研究人员将这些数据与个体变异联系起来。然而,这些方法不包括来自当代技术的高维ENCODE数据,如Hi-C,或来自大型联盟的扩展表达数量性状位点(eQTL)数据,如基因型组织表达项目(GTEx)或eQTLGen项目。从许多不同的数据源收集相关信息并将数据与单个遗传变异联系起来,在计算资源、数据处理、质量控制和可重复性方面可能具有挑战性。
为了解决这个问题,并为研究人员提供一个最先进的网络工具用于包含这些更新资源的变体注释,Breeze等人开发了FORGEdb (https://forgedb.cancer.gov/)。FORGEdb包含一系列数据集,涵盖与基因调控相关的三个广泛领域:调控元件、转录因子(TF)结合和靶基因。首先,利用ENCODE、Roadmap Epigenomics和BLUEPRINT联盟的全基因组表观基因组轨迹数据,FORGEdb将SNP与候选调控元件(如增强子、启动子和其他调控元件类别)的数据联系起来。具体来说,FORGEdb在广泛的细胞和组织类型中注释与DNase I热点、组蛋白标记broadPeaks和染色质状态重叠的变异。其次,在这些候选调控元件中,FORGEdb通过(a)与TF基序的重叠和(b)SNP特异性TF占用上下文分析(CATO)得分,将SNP与转录因子(TF)结合数据整合在一起,这为从等位基因特异性TF计算TF结合提供了补充证据。第三,FORGEdb通过(a)使用接触活性(ABC)数据提供SNP与增强子-启动子环区(或其他环区)之间的重叠(b)使用来自GTEx和eQTLGen的大规模数据提供等位基因特异性表达数量性状位点(eQTL)注释,将SNP与靶基因连接起来。此外,FORGEdb还包括来自数据集的注释,这些注释有助于解释蛋白质编码变化。具体来说,它包括等位基因特异性联合注释依赖耗尽(CADD)评分,该评分使用实验数据和模拟突变来衡量SNP的有害程度。此外,FORGEdb还包括最新的Zoonomia项目序列保守数据和ENCODE4 CRISPR (clustered regularly interspaced short palindromic repeats)调控元件单导RNA (regulatory element single guide RNA, sgRNA)序列等数据。通过将这些数据集合并到一个单一的资源中,FORGEdb提供了一组扩展的注释和对单个变量的更全面的评估,而不是其他常用的在线工具。
为了总结调控注释并优先考虑遗传变异以进行功能验证,作者们创建了一个新的SNP评分系统,将所有与基因调控相关的注释合并为一个称为FORGEdb评分的评分。其目标是在强调透明度的同时,为研究人员创建易于访问和易于解释的分数。为了确保没有单一的注释或数据集会主导或扭曲评分系统,进而导致偏差,作者们采用了一种基于点的方法,分别评估每种不同的实验或技术方法。FORGEdb分数是根据是否存在5个独立的监管功能证据线来计算的:
1. DNase I热点标记可接近的染色质(2分)
2. 组蛋白标记ChIP-seq broadPeak表示不同的调控状态(2分)
3. TF motif(1分)和CATO评分(1分)标记潜在的TF结合
4. 接触活性(ABC)相互作用指示基因环(2分)
5. 表达数量性状位点(eQTL)表明与基因表达相关(2分)
这五条实验证据的选择是基于提供生物学功能指示的可能性,跨多个组织的高质量数据的可用性,以及提供不同的实验信息线。为了在大规模的功能研究中优先考虑变异,检查多种不同的实验证据以获得潜在生物学机制的全面图景至关重要。同样重要的是,要包括采用不可知论方法的数据集,这些数据集不针对特定基因或基因组区域,也不限于单一组织类型,这可能会引入偏见。
FORGEdb分数是通过将每个SNP的所有证据线的分数相加来计算的,范围在0到10之间。9分或10分表示对功能影响有大量证据,而0分或1分表示证据不足。例如,有证据表明,rs1421085的eQTL(IRX3和FTO)、染色质环、TF基体、DNase I热点和组蛋白标记broadPeaks是先前发现的肥胖SNP(图1)。总之,这些注释为该SNP的调控作用提供了强有力的证据,其FORGEdb得分为9。rs1421085的高FORGEdb评分与独立实验分析一致,这些分析表明该SNP具有调控作用,IRX3是关键靶基因。
图1 使用实例查询rs1421085的FORGEdb结果。对于该SNP,有证据表明存在eQTL关联(与IRX3和FTO相关)、染色质环(ABC相互作用)、与重要的TF基序重叠、DNase I热点重叠以及与组蛋白标记broadPeaks重叠。该SNP唯一没有证据的监管数据集是CATO评分(1分)。因此,rs1421085的FORGEdb评分为9 = 2 (eQTL) + 2 (ABC) + 1 (TF motif) + 2 (DNase I热点) + 2(组蛋白标记ChIP-seq)
为了评估FORGEdb评分在GWAS分析的不同性状/疾病中的潜在效用,作者们获得了30项已发表的性状/疾病研究的汇总统计数据,并通过关联p值评估了FORGEdb评分与每个GWAS中SNP排名之间的相关性。具体来说,根据SNP的关联-log10 p值对其进行分类,并估计每个分类的平均FORGEdb评分。结果显示,在所有30种表型中,平均FORGEdb评分与排名SNP之间存在显著正相关,p值越显著,FORGEdb评分越高(中位相关性= 0.845,范围0.55至0.98)。此外,为了评估精细映射研究中的FORGEdb分数,可以识别更有可能发挥功能的变体集,作者们将统计得出的95%可信集的变体的FORGEdb分数与同一项已发表研究中报道的最高SNP进行了比较。结果发现,在95%可信的集合中,较高的FORGEdb分数显著过度代表(t检验p值= 0.002)。这些发现表明,FORGEdb分数与GWAS关联相关,并且与GWAS 95%可信集显著相关,因此可能显示出在广泛的人类特征和疾病中优先排序SNP的实用性,从棕色头发颜色和身高等常见特征到精神分裂症和肺癌等复杂疾病。
总之,FORGEdb是一个新的基于网络的工具,可以帮助解释和确定实验分析中遗传变异的优先级。FORGEdb包含了许多常用网络工具所没有的新技术的特性,提供了对潜在调控功能更全面的分析。所有这些功能都可以通过一个简单易用的搜索引擎访问,https://forgedb.cancer.gov/或https://forge2.altiusinstitute.org/files/forgedb.html。来自FORGEdb的注解可以从https://ldlink.nih.gov/?tab=ldproxy、https://ldlink.nih.gov/?tab=ldassoc、https://ldlink.nih.gov/?tab=ldmatrix、https://forge2.altiusinstitute.org/。
参考文献
[1] Breeze CE, Haugen E, Gutierrez-Arcelus M, et al. FORGEdb: a tool for identifying candidate functional variants and uncovering target genes and mechanisms for complex diseases. Genome Biol. 2024;25(1):3.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-22 04:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社