IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于半监督编码生成对抗网络的图像分类模型

已有 1805 次阅读 2023-5-5 13:26 |系统分类:博客资讯

引用本文

 

付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型. 自动化学报, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212

FU Xiao, SHEN Yuan-Tong, LI Hong-Wei, CHENG Xiao-Mei. A Semi-supervised Encoder Generative Adversarial Networks Model for Image Classification. ACTA AUTOMATICA SINICA, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180212

 

关键词

 

深度学习,生成对抗网络,图像分类,半监督学习 

 

摘要

 

在实际应用中, 为分类模型提供大量的人工标签越来越困难, 因此, 近几年基于半监督的图像分类问题获得了越来越多的关注.而大量实验表明, 在生成对抗网络(Generative adversarial network, GANs)的训练过程中, 引入少量的标签数据能获得更好的分类效果, 但在该类模型的框架中并没有考虑用于提取图像特征的结构, 为了进一步利用其模型的学习能力, 本文提出一种新的半监督分类模型.该模型在原生成对抗网络模型中添加了一个编码器结构, 用于直接提取图像特征, 并构造了一种新的半监督训练方式, 获得了突出的分类效果.本模型分别在标准的手写体识别数据库MNIST、街牌号数据库SVHN和自然图像数据库CIFAR-10上完成了数值实验, 并与其他半监督模型进行了对比, 结果表明本文所提模型在使用少量带标数据情况下得到了更高的分类精度.

 

文章导读

 

随着互联网的普及和智能信息处理技术的迅速发展, 大规模图像资源不断涌现, 面对海量的图像信息, 如何准确地归类整理图像内容变得尤为重要, 所以图像分类问题成为近年来的研究重点.图像分类就是根据图像的不同特征将不同类别的图像区分开来, 因此一个好的特征提取方法是影响图像分类效果的重要因素.最近, 机器学习方法在图像处理的各个领域都取得了很大的成功, 特别是图像分类领域.大量实验证明, 机器学习方法提取的特征较传统手工方法提取的特征在图像分类上能获得更好的分类效果[1].

 

机器学习方法一般分为三大类:有监督学习、无监督学习以及半监督学习.由于有监督学习方法需要大量的人工标注, 而在一般的实际应用中, 提供大量的标签数据无疑会消耗庞大的人力物力, 所以在无监督学习的基础之上, 结合有监督训练的半监督学习成为学者们的研究热点. Suddarth[2]1990年第一次提出在无监督学习过程中引入预测值和训练集真实标签之间的误差, 将无监督训练得到的神经网络作为其他图像处理问题的初始参数, 进而完成了不同的图像任务.而在深度学习算法兴起之后, 可供选择的无监督深度学习算法有很多, 例如深度自编码网络[3]、生成对抗网络(Generative adversarial networks, GANs)[4], 以及把每一个样本当成单独的一个类别进行训练的卷积神经网络(Convolutional neural network, CNN)[5].将有监督算法与上述的无监督方法进行结合, 均能得到效果不错的半监督学习模型.例如利用自编码网络性质构造的阶梯网络[6], 该模型由一个无监督网络连接一个有监督网络组成, 它能有效地从数据信息中筛选出与分类任务相关的信息.还有学者利用对抗的思想, 对样本施加对抗性噪声, 并训练模型使加噪样本和未加噪样本的输出结果类似, 从而使模型具备学习无标注样本的能力, 完成半监督学习[7].

 

在大部分无监督学习方法中, 生成模型是一个不错的选择, 一般的生成模型都有隐性学习原始图像信息的能力, 很多通过优化生成模型搭建的半监督框架都取得了良好的分类效果[8].近年来, 由于GANs具有从简单的隐变量分布中模拟产生任意复杂数据的能力, 很多学者选择对原本的GANs进行优化, 以期获得在半监督图像分类领域更好的效果.例如, 改变网络的训练误差, 通过数据的不确定熵信息对分类器进行训练的策略GANs[9]; 改变模型中的鉴别器结构, 将输出层直接连接分类器, 使数据分为原始类别和一个假图像类, 训练得到半监督分类鉴别器[10].还有学者提出了一个实用的贝叶斯公式, 使GANs进行半监督式学习[11].但在这些半监督GANs框架中有隐性学习图像信息的结构, 而没有考虑直接从隐变量中提取图像特征.

 

为了更好地应用GANs的特征学习能力, 优化图像分类的效果, 本文提出一种半监督编码生成对抗网络(Semi-supervised encoder GAN, SSE-GAN).此网络在原GANs模型中添加一个编码器结构作为生成结构的逆运算, 从而获得原始数据的本质特征, 并将此特征用于图像分类.由于生成图像的过程就是通过对图像本质特征的逐步提取, 进而学习图像表达以及产生图像数据, 可以认为, 生成器的这种从内而外的学习方式学习到的特征准确和全面, 而作为其逆运算的编码器同时保留下这些图像特征的信息, 所以使用这种保留图像特征的编码器结构进行图像分类比使用鉴别器更加准确.本文还将有监督与无监督学习相结合, 构造了一种新的半监督训练方法, 进一步提高了图像分类的准确度.

 1  SSE-GAN模型中流形一致结合方式

 2  SSE-GAN框架图

 3  模型收敛后生成图像与原MNIST数据库图像对比

 

本文提出了一种用于图像分类的半监督模型SSE-GAN, 该模型添加一个编码器结构作为GANs模型中生成器的逆运算, 直接提取图像数据特征用于分类.同时, 该模型还利用无监督与半监督损失共同训练网络的形式, 构造出分类精度高的半监督分类器.实验表明面对各类复杂的图像数据, SSE-GAN均可利用少量的标签数据训练得到效果显著的分类器.大部分优化的GANs模型均使用鉴别器对图像进行分类, SSE-GAN模型则是通过添加编码器的形式, 逆向利用了GANs中的生成器来进行图像分类, 使网络能够直接学习本质特征, 降低了信息在处理过程中损失程度, 所以网络的分类效果更好.且本模型中提出的半监督损失函数的结构也具有一定的普适性, 可以通过改变有监督部分的误差使其能应用于其他多个图像处理任务.值得指出的是, SSE-GAN模型与大部分GANs模型相似, 均存在训练参数过多的问题, 虽然本文提出的流形一致结合方式能一定程度上加快模型的收敛速度, 但是模型的训练耗时仍远大于传统图像分类方法, 因此后期的主要工作是通过对网络损失进行改进, 进一步提高网络的收敛速度.

 

作者简介

 

付晓

中国地质大学(武汉)数学与物理学院硕士研究生. 2015年获得中国地质大学(武汉)数学与物理学院学士学位.主要研究方向为深度学习与图像处理. E-mail: cugfuxiao@163.com

 

李宏伟  

中国地质大学(武汉)数学与物理学院教授.主要研究方向为信息处理与智能计算. E-mail: hwli@cug.edu.cn

 

程晓梅  

中国地质大学(武汉)数学与物理学院硕士研究生. 2016年获得山东大学(威海)数学与统计学院统计系学士学位.主要研究方向为深度学习与图像处理. E-mail: 13016471716@163.com

 

沈远彤  

中国地质大学(武汉)数学与物理学院教授.主要研究方向为小波分析理论与应用, 数字图像处理.本文通信作者. E-mail: whsyt@163.com



https://blog.sciencenet.cn/blog-3291369-1386876.html

上一篇:《自动化学报》创刊六十周年学术研讨会第二期
下一篇:【当期目录】IEEE/CAA JAS第10卷第4期
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-26 19:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部