||
阴性基准测试:生成阴性数据对miRNA靶标分类的影响
MicroRNA (miRNA)是存在于动物、植物和一些病毒基因组中的小非编码RNA,在后转录水平调控基因表达中起关键作用。miRNA是由内源性蛋白因子产生的多阶段过程。成熟后,miRNA与Argonaute蛋白结合形成miRNA诱导的沉默复合物(miRISC)。动物miRNA主要在靶mRNA的3'非翻译区(3' UTR)识别和结合部分互补序列,导致靶mRNA的翻译抑制和/或降解。这种结合模式允许一个miRNA潜在地调控多个靶mRNA,并允许一个mRNA被多个不同miRNA所靶向。相比之下,植物miRNA主要与编码区域内的独特位点具有高度互补性,这促进了miRISC对靶标的切割。
动物miRNA在发育和生理中具有多种功能,而人类miRNA与许多疾病有关。了解miRNA的分子机制和功能作用对于揭示控制基因表达的复杂调控网络和开发针对各种疾病的新治疗策略至关重要。
鉴定mRNA上的miRNA靶点对于理解miRNA参与细胞过程至关重要。多年来,人们开发了各种高通量实验方法来鉴定miRNA-靶基因相互作用(MTIs)。早期方法测量组织培养细胞中miRNA过表达或抑制后mRNA水平的变化。然而,它们受到间接miRNA调控噪声和未知结合位点序列的限制。后来,开发了交联和免疫沉淀(CLIP)方法,如HITS-CLIP和PAR-CLIP,用于捕获miRISC结合的miRNA和mRNA,但是,它们没有提供需要计算预测的结合关系。最近,一些先进的方法,如CLASH、CLEAR-CLIP和改良的iPAR-CLIP已经被开发出来,用于捕获与它们的直接靶标结合的miRNA。由于技术上的挑战,这些方法到目前为止只应用于有限数量的模式生物。因而,为了扩大miRNA靶标库,需要促进计算预测方法的使用。
多年来,已经开发了许多用于动物MTI预测的工具,这些工具依赖于碱基配对模式(主要在种子区)、热力学配对稳定性、目标位点保守性和可及性、与3'UTR末端的可及性、核苷酸组成等决定因素。最近,已经引入了基于机器学习(ML)的方法来区分阳性miRNA-mRNA对(在实验中检测到的相互作用)和阴性miRNA-mRNA对(没有相互作用的证据),利用这些决定因素中的一些作为特征。这些方法在机器学习技术、特征选择、数据集选择和阴性数据生成方面表现出差异。以往研究表明,XGBoost分类器在所有数据集上的表现都优于其他模型,强调了它在MTI预测任务中的有效性。
大多数已发表的实验MTI代表了阳性数据。与此同时,没有高通量的生物测定方法可用于捕获阴性实例,这对ML模型的开发构成了重大挑战。因此,机器学习方法被迫依赖于人为产生或推断的阴性数据。推断的阴性(非相互作用)miRNA靶标对是那些在阳性miRNA靶标数据集中未被鉴定为阳性的数据。然而,值得注意的是,阳性数据是在特定条件下(即细胞类型,发育阶段)确定的,这可能不能完全代表miRNA-靶标相互作用的更广泛背景。选择合适的方法生成阴性数据在模型预测中起着至关重要的作用。达到适当的平衡是必要的,因为与阳性实例相比,过度独特或高度相似的阴性实例可能会阻碍模型在区分阳性和阴性实例方面的有效训练(分别可能导致过拟合或欠拟合)。
到目前为止,不同研究使用了不同方法来产生阴性相互作用数据,没有标准化的方法限制了比较研究结果的能力(图1)。已经观察到若干差异,包括阴性相互作用的数据资源,原始或人工序列的使用,以及在多个候选集中选择的标准。简而言之,mirMark和DeepMirTar使用CLASH数据,通过在每次阳性交互数据中对原始miRNA进行洗牌生成阴性数据。mirTDL和miRAW利用从实验数据推断的相互作用数据。chimiRic利用CLIP数据生成恢复的miRNA和mRNA之间的相互作用,这在阳性数据集(如CLASH)中未观察到。TarPmiR和MirTarget通过在原始目标的完整3'UTR区域内搜索替代位点,从CLASH相互作用中生成阴性数据。然而,他们创建互作对和过滤不太有利的互作对方法各不相同。
图1 产生阴性相互作用的方法摘要。前三种方法使用阳性数据集h3 为每个阳性相互作用产生相应的阴性相互作用。第四种方法使用TarBase数据,最后两种方法使用h3的互补CLIP数据。基于TarBase和CLIP的方法利用全阳性数据集(FPD)从潜在的阴性互作数据中过滤真正的互作数据。注意图中黑色椭圆表示miRNA-靶基因对,但它没有出现在CLIP数据集中,它提供了单独的miRNA和mRNA序列
解决阴性数据短缺的另一种方法是利用单类分类(OCC)模型,该模型通过使用单类示例进行操作。事实证明,OCC在解决现实生活中一类数据丰富而另一类数据有限的问题上是有效的。这种情况经常出现在异常检测任务中,其目标是识别异常值。在这些模型中,其训练过程只使用一个类的样本,这样ML模型就学会了将它们与测试集中的其他类区分开来。属于OCC的两种模型是一类SVM,一种学习新颖性检测决策函数的算法,以及基于树的异常检测方法Isolation Forest。在Cardenas等的一项研究中,OCC被用于预测宿主人miRNA与SARS-CoV-2 RNA序列的结合。考虑SARS-CoV-2 5′-UTR区域,单类支持向量机在预测miRNA与免疫基因结合方面优于多类支持向量机和随机森林模型。这些OCC模型为MTI预测任务提供了潜在的解决方案,必须评估它们在学习互作规则方面的有效性,而不依赖于明确的阴性互作案例。
最近,Cohen-Davidi等人调查了产生阴性数据的不同方法如何影响真正的人类MTI分类。作者们利用直接高通量MTI的数据集作为阳性案例,并实现了各种方法来生成阴性互作的数据集。对于每个数据集,作者们训练和测试了ML分类器来预测相同数据集中的miRNA-靶基因相互作用。为了评估训练模型对阴性数据的敏感性,他们还评估了跨数据集分类性能(图2)。此外,还进行了特征重要性分析,以阐明方法之间的差异,并揭示导致类别之间差异的具体因素。此外,作者们还探索了两种完全利用阳性互作数据进行训练的OCC模型。本研究的结果为MTI的计算预测提供了有价值的见解,可以进一步用于建立该领域的标准。
图2 通过内部和跨数据集分析评估阴性数据生成方法。这些模型在相同的阳性互作数据中进行训练和测试,而阴性互作数据则有所不同。阳性和阴性数据集随机分成80%用于训练,20%用于测试。在数据集内或跨数据集分类分析中,训练集和测试集分别来自同一阴性数据集或两个不同的数据集。为了模拟交叉验证,在不同的随机状态下重复分割过程20次,从而为每个数据集生成20个独特的训练和测试集
该研究强调了在MTI分类任务中使用多种技术生成阴性数据的关键影响。此外,它阐明了不同的方法如何倾向于具有特定特征的互作,从而导致固有的偏差,使ML模型能够区分阳性和阴性互作。总之,该研究强调了标准化方法在未来研究中的必要性,促进了MTI分类研究的可比性并减少了潜在的偏差。采用这种做法将有助于这一领域的进步,为进一步调查和发展更准确的分类模型提供坚实的基础。
参考文献
[1] Cohen-Davidi E, Veksler-Lublinsky I. Benchmarking the negatives: Effect of negative data generation on the classification of miRNA-mRNA interactions. PLoS Comput Biol. 2024;20(8):e1012385. doi: 10.1371/journal.pcbi.1012385.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社