|
引用本文
线岩团, 陈文仲, 余正涛, 张亚飞, 王红斌. 融合类别先验Mixup 数据增强的罪名预测方法. 自动化学报, 2022, 48(8): 2097−2107 doi: 10.16383/j.aas.c200908
Xian Yan-Tuan, Chen Wen-Zhong, Yu Zheng-Tao, Zhang Ya-Fei, Wang Hong-Bin. Category prior guided mixup data argumentation for charge prediction. Acta Automatica Sinica, 2022, 48(8): 2097−2107 doi: 10.16383/j.aas.c200908
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200908
关键词
类别先验Mixup,罪名预测,类别不平衡分类,低频罪名
摘要
罪名预测是人工智能技术应用于司法领域的代表性任务. 该任务根据案情描述和事实预测被告人被判的罪名. 由于各类罪名样本数量高度不平衡, 分类模型训练时分类器易偏向高频罪名类别, 从而导致低频罪名预测性能不佳. 针对罪名预测类别不平衡问题, 提出融合类别先验Mixup数据增强策略的罪名预测模型, 改进低频罪名预测效果. 该模型利用双向长短期记忆网络与结构化自注意力机制学习文本向量表示, 在此基础上, 通过Mixup数据增强策略在向量表示空间中合成伪样本, 并利用类别先验使合成样本的标签偏向低频罪名类别, 以此来扩增低频罪名训练样本. 实验结果表明, 与现有方法相比, 该方法在准确率、宏精确率、宏召回率和宏F1值上都获得了大幅提升, 低频罪名预测的宏F1值提升达到13.5%.
文章导读
罪名预测是法律判决预测任务中具有代表性的子任务, 也是法律辅助系统的重要组成部分[1].
罪名预测通常被看作针对案件事实的文本分类问题. 早期研究工作通常利用统计机器学习方法实现罪名预测[2-4]. 随着深度学习在自然语言处理领域的广泛应用, 基于深度学习方法的罪名预测模型大量涌现.
2018 中国“法研杯”司法人工智能挑战赛发布中文司法判决预测数据集, 共包含260余万条数据, 数据源于“中国裁判文书网”公开的刑事法律文书[5]. 针对中文的司法判决预测任务, 目前有较多的研究工作均在此数据集上展开.
Zhong等[6]将多种判决预测任务之间的依赖视为有向无环图, 提出了拓扑多任务学习框架, 并将多种判决任务间的依赖关系融入分类模型, 改进了罪名预测效果. Yang等[7]借助多任务间的拓扑结构, 通过多角度前向预测和反向验证提高了多任务审判预测性能. 王文广等[8]提出了融合层次注意力网络和卷积神经网络的多任务罪名预测模型. 已有研究表明, 将罪名预测与其他相关判决预测任务联合建模, 为模型提供更多的监督信息, 可以改进罪名预测效果.
Jiang等[9]采用深度强化学习方法抽取文本中的论据, 并利用论据增强分类来提高罪名预测的准确率. 刘宗林等[10]在罪名预测和法条推荐联合模型中融入罪名关键词提升了罪名预测性能. Xu等[11]采用图神经网络学习易混淆法条之间的差异, 并设计注意力机制充分利用这些差异从事实描述中抽取出明显特征去区分易混淆罪名. 已有的罪名预测工作大多从多任务学习和外部知识融入的角度开展罪名预测研究, 未考虑罪名预测的数据分布问题.
由于各类案件发生概率的差异较大, 罪名预测数据存在着严重的类别不平衡问题. 以 Hu等[12]构建的罪名预测数据集为例, Criminal-L训练集共包含149类罪名, 将各罪名按其样本占比降序排列, 其中前10类高频罪名对应的样本占比约为78%, 而最后100类罪名的样本仅占约3%, 这是典型的“长尾数据”. 各类罪名在数量上的高度不平衡易导致模型在训练时偏向于高频罪名而忽略低频罪名, 造成在罪名预测时低频罪名易被错误分类的问题, 从而严重影响模型性能.
针对罪名预测的类别不平衡问题, Hu等[12]在人工标注法律属性的基础上, 构建联合罪名预测和法律属性预测的多任务分类模型, 提高了低频罪名的预测性能. He等[13]在胶囊网络基础上, 提出融合文本序列信息和空间信息的罪名预测模型, 并引入Focal Loss损失函数, 有效提高了低频罪名的预测效果.
和已有的多任务方法[12]与改进损失函数的方法[13]不同, 本文从数据增强角度研究罪名预测的类别不平衡问题. 本文借鉴图像分类中的混合样本数据增强方法[14-15], 在文本的表示空间中扩增训练样本, 并提出融合罪名先验概率的标签合成策略, 使合成样本偏向低频罪名类别, 从而达到扩增低频罪名训练样本的目的. 在表示空间中合成偏向低频罪名的训练样本, 既扩增了训练样本的数量, 又丰富了特征的多样性, 有助于平滑模型的分类面, 提高模型的泛化能力.
本文采用 Lin等[16]提出的结构化自注意力句子嵌入方法构建罪名预测模型, 并在模型训练过程中融入类别先验混合样本数据增强策略, 提升模型性能. 实验结果表明, 本文提出的融入类别先验Mixup数据增强的罪名预测方法可以在不增加人工标注和辅助任务的前提下, 有效改进罪名预测模型性能, 显著提高低频罪名的预测效果. 本文提出方法的源代码可从网址https://github.com/xianyt/ proir_mixup_charge下载.
本文方法的主要贡献如下:
1)本文将Mixup数据增强方法引入罪名预测任务中, 利用文本表示空间中的插值操作合成训练样本. 合成样本增加了训练样本的多样性, 有效提高了罪名预测模型的泛化能力.
2)本文针对罪名不平衡问题, 提出了类别先验引导的Mixup数据增强策略. 该策略在文本表示空间中生成倾向于低频罪名的合成样本, 扩增了低频罪名样本, 有效缓解了罪名不平衡问题, 提高了低频罪名的预测效果.
3)与基线模型相比, 本文方法在Hu等[12]构建的3个不同规模的罪名预测数据集上都取得了最好的预测效果. 模型在宏准确率、宏召回率和宏F1值上都有显著提升, 低频罪名宏F1值提升达到13.5%.
图 1 罪名预测模型的总体结构图
图 2 训练集罪名样本分布
图 3 训练集罪名部分样本分布
本文将Mixup数据增强策略引入到罪名预测任务中, 并针对罪名不平衡问题提出了类别先验Mixup数据增强策略, 有效缓解了类别不平衡带来的影响, 提高了低频罪名和易混淆罪名的分类性能; 相比已有方法, 本文提出的类别先验Mixup数据增强方法简单有效, 无需额外的人工标注, 也不需要引入辅助任务.
本文主要关注于改进低频罪名预测性能, 并针对单罪名预测问题验证了所提方法的有效性, 而数罪并罚情况下的Mixup数据增强策略将在下一步工作中进行研究.
作者简介
线岩团
昆明理工大学信息工程与自动化学院副教授. 主要研究方向为自然语言处理, 信息抽取和机器翻译. E-mail: xianyt@kust.edu.cn
陈文仲
昆明理工大学信息工程与自动化学院硕士研究生. 主要研究方向为自然语言处理和信息检索. E-mail: Chen_WenZhong@163.com
余正涛
昆明理工大学信息工程与自动化学院教授. 主要研究方向为自然语言处理, 信息检索, 机器翻译和机器学习. 本文通信作者. E-mail: ztyu@hotmail.com
张亚飞
昆明理工大学信息工程与自动化学院副教授. 主要研究方向为自然语言处理和模式识别. E-mail: zyfeimail@163.com
王红斌
昆明理工大学信息工程与自动化学院副教授. 主要研究方向为自然语言处理和信息抽取. E-mail: wanghongbin@kust.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社