博文

分子网络分析的因果发现方法综述

已有 1187 次阅读 2023-9-27 08:22 |个人分类:科普|系统分类:科普集锦

分子网络分析的因果发现方法综述

分子网络对于理解超越单个基因或分子分析的生物过程非常重要。分子表型在所有水平上的运作都不是孤立的，相互作用构成了包含丰富信息的复杂网络。在一个数据产生比以往任何时候都多的时代，这些网络可能变得越来越复杂。分子网络包含一组节点和边。节点代表来自多组学的信息，包括但不限于基因、信使RNA (mRNA)、蛋白质、DNA甲基化模式和蛋白质磷酸化。边缘表示节点之间的关系，因此可以象征分子表型和转录调节之间的直接和间接关系。

分子网络的主要优势之一是阐明疾病的遗传和生物学机制。即使是已知致病基因的疾病(如:CFTR突变导致囊性纤维化)和HTT突变导致亨廷顿舞蹈病)，这些基因作为一个大网络的一部分，永远不会孤立。失调的生物过程和其中的重要“枢纽”可以被确定为疾病驱动因素，这可能有助于确定影响相关基因集而不是重要个体基因的药物靶点，尽管这尚未转化为临床有用的治疗方法。

无向网络已经成为研究生物过程和识别疾病枢纽基因的重要方法。传统上，蛋白质-蛋白质相互作用网络是通过结合体内和体外方法来理解相互作用的，然而，这些方法需要花费大量的时间和经济成本，并导致具有高假阳性率的噪声网络。使用计算机方法的组学数据方法已被用作更好地理解这些无定向关联的替代方法。最常见的是，共表达分子网络建立在相关结构的基础上。使用特定的R软件从转录组学数据推断无向网络已经变得流行。例如，加权基因共表达网络分析(WGCNA)对用户特别友好，因为作者已经制作了大量的教程和指南，以增加研究人员的可访问性。虽然提供有限的机械理解，但无向网络是重要的，因为它们通常是因果网络研究的先驱。

许多无向网络(如图1a所示)依赖于使用节点之间的相关性来推断对称关联。然而，因果网络旨在区分直接调节关系和相关关系。这种方法可以识别定向网络(如图1b所示)或混合网络(如图1c所示)。值得注意的是，网络中的定向关系不一定有因果解释，因为它们可能只是描述数据生成过程中的时间顺序。只有对节点之间的混杂因素进行了调整，这些关系才具有因果意义。

图1 (a)无向网络，(b)有向网络和(c)混合网络的一个例子。混合网络既有有向边也有无向边

从基因表达数据中识别因果关系是在20多年前提出的。从那时起，利用组学数据开发了大量的因果推理方法。这种方法在生物学研究中是有利的，因为它允许在没有干预的情况下推断因果关系，特别是在由于高成本和伦理问题而无法进行随机对照试验的情况下。

随着技术变得更容易获得和负担得起，正在收集的组学数据范围越来越大，这允许进行综合分析，以更完整地了解不同类型的组学如何相互作用。分子网络中的因果推理是一个新兴的研究领域。然而，复杂的高维因果网络的用途有限，它们对文献的贡献受到严重限制，因为它们往往难以解释。需要有一些方法可以识别生物学上重要的子网络和未来研究或治疗干预的少量目标。

在《A review of causal discovery methods for molecular network analysis》综述中，作者们讨论了当前文献中使用的分子网络因果发现方法和该领域面临的挑战。还讨论了影响因果网络解释的因素，包括聚类和可视化。既往综述专注于介绍构建因果网络的方法，并给出了一些生物学例子，该综述则重点关注已发表的方法及其在分子网络和随后的生物学解释中的应用。

不同因果方法在组学数据中的应用，最简单的因果网络只涉及一对变量之间的因果关系，研究一次接触是否会导致一次结果。为了研究成千上万个变量之间的关系，因果网络可以变得越来越复杂。随着对分子表型数据的应用，用于构建因果网络的主要方法是孟德尔随机化(MR)和贝叶斯网络(BN)，包括PC算法，如图2所示。一般先考虑MR, BN单一方法，然后考虑这些方法的组合，以减少任何单一方法的局限性，表1显示了这些方法的摘要。

表1 因果分子网络分析的发现方法综述，包括可用的软件

连接基因的网络可以迅速变得非常复杂，这严重限制了生物解释，即使在简单的共表达网络中也是如此。然而，即使在解释简单的网络时，区分关联和因果关系也是很重要的。过去，因果语言的不当使用一直是生物科学中的一个特殊问题。因果分子网络通常是高维的。许多研究在推断因果关系之前，通过先前对途径或无向网络聚类的了解，确定了他们感兴趣的较小的基因子集。然而，这可能会遗漏在因果网络中可能相关的因素，这些因素不在聚类中或未被传统的单变量分析确定。或者，构建一个因果网络，然后将节点聚类，将识别可能涉及类似生物过程的任何功能接近的变量集。很少有已发表的论文在因果分子网络中进行聚类。随着这些网络规模的增长，聚类对于识别生物过程和其中重要的因果分子将变得越来越重要。

大型因果分子网络的一个优势是药物发现和再利用。以前识别药物的方法主要集中在疾病和已知药物之间的转录特征的相关性，然而这种方法产生的药物和治疗靶点很少得到进一步研究，并且在将任何新的治疗方法引入临床方面没有取得多大成功。因果途径允许更深入地识别药物靶点。Škrlj等人开发了疾病因果网络(CaNDis)，该网络使用因果蛋白-蛋白质相互作用来识别FDA批准的可影响特定疾病的药物。来自CMap等数据库的已知药物通路特征可以与因果网络相匹配，以影响特定目标。还可以研究因果网络，以确定可以使用药物靶向的已知疾病靶点的上游调节因子。不幸的是，这些进步在文献中几乎没有使用，因此限制了对临床的转化。在构建分子因果网络时，方法的进一步发展和使用这些药物发现工具的额外工作应包括在未来的研究中，因为它们变得更容易获得。

网络可视化通常是创建网络后的第一步。网络可视化的优点之一是能够更好地将结果传达给读者，而无需完全了解结果是如何产生的。因此，适当的可视化对于反映结果和从数据中获得最大收益至关重要。有许多工具可以帮助生成网络，包括Cytoscape和Gephi。这些工具通常包含大量的可定制性来可视化网络，特别是在自动生成布局方面。

然而，可视化和解释非常大而复杂的网络可能是困难的，并且在文献中经常被忽视。选择最佳和最合适的方式来显示网络在很大程度上取决于所要可视化的网络类型，因此需要了解数据及其分析方式的人进行大量输入。在具有多组学数据的分子网络中，在可视化中分层不同的组学类型以显示它们如何相互作用，将比任何可用的预先设计的布局提供更结构化的视图。一些方法，包括贝叶斯网络和MR，提供因果效应大小，可以通过增加更大效应大小的边的大小在网络中可视化。这使得来自其他生物学领域的专家能够解释分子表型的相互作用，并更有可能导致未来的研究。有可能创建交互网络，其中节点和边缘可以通过调整因果效应大小阈值来包括或排除。因果推理的目的之一是确定治疗干预的少数目标，因此其他研究人员可以使用易于解释的有效可视化来识别他们特别感兴趣的网络。

有关分子因果网络识别方法的详细介绍可以参见文献[1]。

参考文献

[1] Kelly J, Berzuini C, Keavney B, Tomaszewski M, Guo H. A review of causal discovery methods for molecular network analysis. Mol Genet Genomic Med. 2022 Oct;10(10):e2055. doi: 10.1002/mgg3.2055.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC