IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于深度学习的维吾尔语名词短语指代消解

已有 506 次阅读 2024-5-7 17:03 |系统分类:博客资讯

引用本文

 

李敏, 禹龙, 田生伟, 吐尔根·依布拉音, 赵建国. 基于深度学习的维吾尔语名词短语指代消解. 自动化学报, 2017, 43(11): 1984-1992. doi: 10.16383/j.aas.2017.c160330

LI Min, YU Long, TIAN Sheng-Wei, TurgLm IBRAHIM, ZHAO Jian-Guo. Coreference Resolution of Uyghur Noun Phrases Based on Deep Learning. ACTA AUTOMATICA SINICA, 2017, 43(11): 1984-1992. doi: 10.16383/j.aas.2017.c160330

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160330

 

关键词

 

深度学习,栈式自编码神经网络,指代消解,Word embedding,维吾尔语 

 

摘要

 

针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.

 

文章导读

 

指代(Anaphora)是自然语言的普遍现象, 也是语篇内句与句之间衔接(Cohesion)的重要手段之一, 对指代成分准确无歧义的消解有助于机器分析和语篇理解[1].随着篇章处理相关应用的日益发展, 指代消解在自动文摘、信息抽取、机器翻译等自然语言处理领域有着广泛的运用.

 

基于机器学习的方法在指代消解任务中得到广泛的应用. Soon[2]提出一种基于机器学习的指代消解方法, 利用决策树算法消解非限制领域名词短语, 首次给出了完整的实现步骤. Bergsma[3]利用支持向量机(Support vector machine, SVM)结合统计信息进行指代消解, 提出一种基于语法路径的代词消解方法. Ng[4]通过对不同语义类之间指代关系的研究, 提出一种自动推导语义类扩充特征的方法, 提升了指代消解的性能. Bengtson[5]将指代消解视为图式问题, 根据最佳链路决策算法生成指代图, 利用机器学习技术研究不同类型特征对指代消解任务的贡献, 强调距离特征和同位结构特征在消解任务中的重要作用.

 

与国际上指代消解的研究相比, 国内的指代消解研究起步较晚, 周俊生等[6]利用了一种无监督的聚类算法来实现名词短语的指代消解, 采用带权图对指代消解问题进行建模, 引入有效模块函数实现指代等价类的自动划分.王海东等[7]探索了语义角色对指代消解性能的影响, 其研究表明, 语义角色信息的引入能够显著提高指代消解的性能.孔芳等[8]提出了一种基于卷积树核函数的中英文代词消解方法, 利用卷积树核函数, 探索语义信息对代词消解性能的作用.奚雪峰等[9]提出采用深度学习的深层机器学习代替传统浅层机器学习, 通过构建多隐层机器学习模型, 自动挖掘深层语义信息并探索面向指代消解的语义特征泛化表示.实验结果表明, 多层的学习结构有效地提高了模型的性能, 特征抽象层的引入, 进一步促进模型对深层语义信息的学习.

 

随着指代消解研究的不断深入, 如何有效地获取语义信息在指代消解中起至关重要的作用.基于神经网络的Word embedding方法在词语语义表示方面表现出很好的性能, 受到广泛的关注[10-11].本文提出利用Word embedding之间的位置关系表示语义层面上的联系, 作为文本的高层抽象特征, 通过深度学习模型多映射单元提取主要的结构信息, 发现变量之间的真正关系形式, 进而完成指代消解任务.目前, 许多学者从不同的角度探讨了各种语言的指代现象, 但对于像维吾尔语这样的小语种研究还不够深入.因此本文针对维吾尔语的名词短语指代现象进行研究, 主要研究代词和名词/名词短语、名词和名词/名词短语、名词短语和名词短语间的指代问题.

 1  维吾尔语名词短语指代消解框架

 2  栈式自编码网络结构图

 

指代消解的研究有助于自然语言处理技术的发展, 具有很大的研究价值和实用价值.现有的研究主要针对英语、汉语等大语种, 而对于维吾尔语指代消解的分析研究还很少.针对以上不足, 本文提出利用栈式自编码算法同时基于语义特征的维吾尔语名词短语指代消解方法.与以往的研究方法相比, 本文利用深度学习机制无监督地提取文本中主要的结构信息, 挖掘深层语义.通过引入Word embedding作为高层抽象特征, 进一步地提高特征对语义的表达.实验结果证明, 深度学习模型较浅层机器学习模型更适用于本文维吾尔语名词短语指代消解任务, 同时, Word embedding的引入, 有效地提高了模型对语义的学习和理解能力.

 

作者简介

 

李敏

新疆大学硕士研究生.主要研究方向为自然语言处理.E-mail:limin_xju@163.com

 

田生伟

新疆大学教授.主要研究方向为自然语言处理与计算机智能技术.E-mail:tianshengwei@163.com

 

吐尔根·依布拉音

新疆大学教授.主要研究方向为计算机智能技术与自然语言处理.E-mail:mytlgxj@126.com

 

赵建国

新疆大学副教授.主要研究方向为维汉双语对比.E-mail:13899951918@126.com

 

禹龙  

新疆大学教授.主要研究方向为计算机智能技术与计算机网络.本文通信作者.E-mail:yul_xju@163.com



https://blog.sciencenet.cn/blog-3291369-1433062.html

上一篇:云控制系统并行任务分配优化算法与并联控制
下一篇:一类采用分数阶PIλ控制器的分数阶系统可镇定性判定准则
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 03:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部