|
引用本文
张浩宇, 王戟. 一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法. 自动化学报, 2023, 49(6): 1181−1194 doi: 10.16383/j.aas.c210004
Zhang Hao-Yu, Wang Ji. A synonym mining algorithm based on pair-wise character embedding and noisy learning. Acta Automatica Sinica, 2023, 49(6): 1181−1194 doi: 10.16383/j.aas.c210004
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210004
关键词
同义词挖掘,噪声标签学习,自然语言处理,成对字向量,信息抽取
摘要
同义词挖掘是自然语言处理中一项重要任务. 为了构建大规模训练语料, 现有研究利用远程监督、点击图筛选等方式抽取同义词种子, 而这几种方式都不可避免地引入了噪声标签, 从而影响高质量同义词挖掘模型的训练. 此外, 由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性, 在同义词挖掘任务中, 词级别的预训练词向量很难产生高质量的实体语义表示. 为解决这两个问题, 提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型. 模型利用预训练的成对字向量增强实体语义表示, 并利用自动标注的噪声标签通过交替优化的方式, 估计真实标签的分布并产生伪标签, 希望通过这些改进提升模型的表示能力和鲁棒性. 最后, 使用WordNet分析和过滤带噪声数据集, 并在不同规模、不同领域的同义词数据集上进行了实验验证. 实验结果和分析表明, 该同义词挖掘模型在各种数据分布和噪声比例下, 与有竞争力的基准方法相比, 均提升了同义词判别和同义词集合生成的效果.
文章导读
实体词一般用来表示客观存在并可以相互区别的事物, 如人名、机构名、地名等专有名词或有意义的时间等. 挖掘实体词间的同义词、反义词、上/下位词等词汇关系, 对于计算机有效理解词汇语义十分重要. 在这些实体词词汇关系中, 同义词指意义相同或相近的实体词, 其主要特征是词汇在语义上相同或相似. 同义词挖掘是自然语言处理领域一项重要任务, 它的目标是从无结构文本中识别出所有的实体同义词, 能为很多下游与实体相关的任务(如知识库补全、知识库问答、实体分类、实体链接、搜索扩充、文档摘要等)[1-5]提供有用的信息. 近年来, 基于深度神经网络的方法在同义词挖掘研究中取得了不错效果, 但在领域特定数据集上, 受限于带标签训练数据的不足. 为了解决这个问题, 已有的研究尝试从无结构化文本中提取一些训练种子, 其中比较典型的方式有通过实体链接的方式利用已有的知识图谱进行远程监督构造数据[6]和基于搜索引擎、电子邮件等场景下搜索点击图筛选构造训练数据[7-8]. 远程监督是利用已有数据构建同义词挖掘数据集的一类重要和常见方法, 很多同义词挖掘领域的基准数据集是利用远程监督进行构建的[6, 9].
尽管远程监督方法能够有效地构造出大规模的领域带标签训练数据, 但是这些数据中包含着一定比例的噪声标签, 在一定程度上影响了同义词挖掘模型的学习效果, 也是亟待解决的问题. 在解决此类问题时, 噪声学习是当前研究中较为主流的一种研究思路. 噪声学习主要研究如何利用鲁棒的模型设计、目标函数设计以及先验知识减少包含噪音的标签在训练时对深度神经网络的影响. 近期, 在计算机视觉、自然语言处理等领域出现了一些研究噪声对神经网络学习过程影响的分析以及噪声鲁棒学习方法的研究[10-12]. 例如, 基于噪声学习的方法在同样使用远程监督构造大规模监督数据的细粒度实体识别和关系抽取领域被广泛应用[12-14]. 而在同义词挖掘领域, 远程监督构造数据集的方法也被广泛应用, 且至少在以下两个过程中会引入噪声标签: 1)在实体链接的过程中, 由于实体链接器的错误, 而引入标签噪声; 2)知识库本身的节点同义词信息包含错误. 尽管存在着这样的噪声标签问题, 但已有的同义词挖掘方法往往忽略了该问题或只专注于解决如何在远程监督构建数据过程中去噪[6], 较少关注如何在学习过程中去噪.
另一方面, 实体词语义表示学习也是同义词挖掘的一个难点. 实体词尤其是领域实体词具有稀疏性质, 在大规模通用语料中出现次数很少. 预训练词向量的目标是最大化每个单词与其近邻单词的条件概率, 词汇语义关系判断只是其副产物. 例如, Word2Vec等工作[15-16]捕获了词汇间的相似性关系, “北京”和“广州”的表示向量较为相似, 但这类预训练词向量无法直接有效应用到同义词相似度判别. Fei等[17]研究实验结果也表明, 词级别的预训练词向量在实体同义词挖掘任务上的表示能力受到一定的限制. 为了解决词表示能力的不足, 现有的很多同义词挖掘研究[6-7, 18]选择挖掘各种统计特征增强词汇表示(例如语义标签、上/下文模板、共现频率等), 但较少有从语义表示向量角度进行的探索.
为了解决上述两类问题, 本文提出一种结合了噪声鲁棒学习框架和成对字表示向量的方法. 该方法分别利用成对字向量来增强实体词的表示能力, 利用噪声学习框架缓解噪声标签的影响. 在实验过程中, 利用WordNet[19]对含噪声数据集进行了分析和过滤. 本文的主要贡献如下:
1)利用WordNet对远程监督得到的数据进行噪声比例和噪声特点分析, 并过滤了测试集中的噪声, 以得到更加准确的评判结果. 针对性地缓解了之前同义词挖掘基准数据集本身的质量问题, 同时统计了与WordNet中的同义词数据相比, 多个基准数据集的噪声数据比例.
2)引入了成对字向量和噪声学习的框架, 针对当前的同义词集合生成方法的两类问题(实体词的表示问题和对噪声标签的鲁棒性不足问题)进行了针对性改进. 针对实体词的表示问题, 对成对词向量方法进行了字符级别的扩展; 针对对噪声标签的鲁棒性不足问题, 设计了一种“估计−矫正”框架, 进行伪标签分布的学习与矫正.
3)通过在3个不同规模、不同领域数据集上进行的实验, 对模型效果进行了定性和定量分析比较. 实验分析和结果表明, 本文方法能够有效提升在各个规模、各个领域的效果. 进一步的辅助实验分析表明, 本文提出的改进方法能够有效地学习到更好的实体词语义表示, 并在不同比例的噪声训练数据集上, 具有更高的鲁棒性.
图 1 模型结构图
图 2 不同集合大小下模型性能对比
图 3 不同集合大小的中、英文数据性能效果对比
同义词挖掘是自然语言处理和信息抽取中的重要方向, 在知识库补全、搜索扩展等下游任务上有重要作用, 得到了广泛的研究与关注. 在前人研究的基础上, 本文工作聚焦于在远程监督产生的种子数据下的同义词挖掘任务, 基于远程监督过程中的实体链接带来的噪声标签问题, 构建了噪声鲁棒的同义词挖掘模型. 该方法通过引入隐变量估计和交替优化的噪声学习框架来修正噪声标签, 进一步使用字级别的成对向量表示增强模型的实体表示能力. 通过在3个规模不同的领域数据集和中文扩展版同义词词林数据集上与几种基准方法的实验对比, 结果表明, 本文方法在包括同义词聚类、同义词集合判别以及不同比例噪声训练在内的一系列实验中, 都表现出了显著提升效果. 在后续工作中, 将继续研究噪声鲁棒模块的一些细节问题, 如噪声鲁棒模块的标签分布学习效果等. 另外, 在本文工作中, 对成对词向量和成对字向量未进行更加深入的实验比较, 这是今后需要补充的工作. 此外, 探索和研究其他形式构造的同义词训练种子数据中噪声的分布和对模型学习过程的影响, 探索噪声学习在其他噪声数据下的效果, 以及进一步尝试将噪声学习方法应用在其他自然语言处理的任务上, 是未来要做的一项工作.
作者简介
张浩宇
军事科学院国防科技创新研究院人工智能研究中心助理研究员. 2020年获得国防科技大学博士学位. 主要研究方向为自然语言处理, 知识图谱. E-mail: zhanghaoyu10@nudt.edu.cn
王戟
国防科技大学计算机学院教授. 1995年获得国防科技大学博士学位. 主要研究方向为软件方法学, 高可信与智能软件技术. 本文通信作者. E-mail: wj@nudt.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 08:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社