IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于条件随机森林的非约束环境自然笑脸检测

已有 550 次阅读 2024-2-13 16:51 |系统分类:博客资讯

引用本文

 

罗珍珍, 陈靓影, 刘乐元, 张坤. 基于条件随机森林的非约束环境自然笑脸检测. 自动化学报, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439

LUO Zhen-Zhen, CHEN Jing-Ying, LIU Le-Yuan, ZHANG Kun. Conditional Random Forests for Spontaneous Smile Detection in Unconstrained Environment. ACTA AUTOMATICA SINICA, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160439

 

关键词

 

笑脸检测,条件随机森林,头部姿态估计,K-Means聚类 

 

摘要

 

为减少非约束环境下头部姿态多样性对笑脸检测带来的不利影响,提出一种基于条件随机森林(Conditional random forestsCRF)的笑脸检测方法.首先,以头部姿态作为隐含条件划分数据空间,构建基于条件随机森林的笑脸分类器;其次,以K-Means聚类方法确定条件随机森林分类器的分类边界;最后,分别从嘴巴区域和眉眼区域采集图像子块训练两组条件随机森林构成层级式结构进行笑脸检测.本文的笑脸检测方法在GENKI-4KLFW和自备课堂场景(CCNU-Classroom)数据集上分别取得了91.14%90.73%85.17%的正确率,优于现有基于支持向量机、AdaBoost和随机森林的笑脸检测方法.

 

文章导读

 

笑脸是人类最常见的面部表情之一, 反映了人的心理状态, 传递着丰富的情感和意向信息.笑脸检测在用户体验感知[1]、学生心理状态分析[2]、照片增强处理[3]、相机微笑快门[4]等领域有广泛的应用.近年来, 国内外的学者在笑脸检测方面开展了大量的研究工作[5-6].随着研究的深入和实际应用要求的提高, 笑脸检测的研究热点逐步从约束环境转移到非约束环境[7].非约束环境(Unconstrained environment)是指主体意识想法和行为不受规定约束的环境.在非约束环境下, 人的头部姿态、环境光照、背景以及图像分辨率等环境因素不受约束.由于这些不利环境因素的影响, 约束环境下的笑脸检测算法通常不能在非约束环境下保持良好的正确率.非约束环境下的笑脸检测在计算机视觉领域仍然是一项富有挑战性的工作[5-6].

 

依据特征采样方式的不同, 可将现有笑脸检测算法粗略分为基于面部运动单元(Action units, AUs)的方法[7-13]和基于内容(non-AUs)的方法[4, 14-22].基于面部运动单元的方法从面部动作编码系统(Facial action coding system, FACS)[8]定义的44个面部运动单元中选取相关的AUs, 并以这些AUs为桥梁建立低层人脸特征与表情的关系模型进行笑脸检测.文献[7]和文献[9]分别利用动态贝叶斯网络(Dynamic Bayesian network, DBN)和隐马尔科夫模型(Hidden Markov model, HMM)建立AUs之间以及AUs与表情的概率模型, 从图像中同步推理头部运动和表情变化.这两种方法取得了良好的笑脸检测效果, 但模型较为复杂, 导致计算量庞大.为建立更为高效和简洁的笑脸检测系统, 文献[10]将人脸分为眉眼区域和嘴巴区域两部分, 采用Gabor小波提取区域特征, 并结合K近邻(K-Nearest neighbor, KNN)与贝叶斯网络(Bayesian network, BN)建立面部运动单元与表情间的概率关系模型.为避免精确检测AUs的困难, 文献[12]从特定AUs周围提取图像子块, 对每个子块提取Haar特征后采用错误率最小策略从中选出AUs组合特征, Boosting框架下利用组合特征构造表情分类器. Walecki[13]提出一种基于潜式条件随机森林(Latent conditional random forests)的视频动态序列编码方法实现人脸运动单元AUs检测和表情识别.虽然AUs具备明确的面部表情划分和定义, 便于利用心理学的研究成果选用最有效的AUs来识别不同的表情, 但基于面部运动单元的方法对笑脸检测的准确率很大程度上取决于AUs的定位和运动特征的计算精度.此外, 对训练数据做AUs标注较为困难是基于面部运动单元方法的另一弱点.

 

基于内容的方法通常不再分析面部运动单元, 而是在对人脸进行对齐(Face registration), 直接从人脸提取特征并通过机器学习方法建立图像到笑脸表情的映射. Shimada[14]在提取局部强度直方图(Local intensity histogram, LIH)和中心对称局部二值模式(Center-symmetric local binary pattern, CS-LBP)两种特征后, 采用层级式支持向量机(Support vector machine, SVM)进行笑脸分类.该方法对高分辨率正脸图像具备良好的检测效果和效率, 但没有考虑头部姿态变化的情况. Whitehill[4]从互联网上收集了头部水平偏向角为−20 ∼ +20GENKI-4K数据集, 并在该数据集上系统地测试了GaborHaar、边缘方向直方图(Edge orientation histograms, EOH)LBP等特征搭配SVMGentleBoost等分类器对笑脸检测的效果.实验结果表明, 头部姿态变化对笑脸检测的效果有较大的影响. Shan[15]使用像素对的灰度差值作为特征, 利用AdaBoost算法选择像素对并组合强分类器进行笑脸检测.当使用100对像素对时, 该方法在GENKI-4K数据集上可以达到88 %的正确率.文献[16]采用极端学习机(Extreme learning machine, ELM)[17], 使用灰度值、HOGLBPLPQ (Local phase quantization)特征时, GENKI-4K数据集上分别取得了79.3 %88.2 %85.2 %85.2 %的正确率.最近, Gao[18]通过混合HOG31、梯度自相似性(Self-similarity of gradients, SSG)[19]和灰度特征, 及组合AdaBoost和线性ELM两种分类器的方式, GENKI-4K数据集上的笑脸检测正确率提高到了96.1 %.就作者查阅的文献来看, 目前还只有少量研究者开展任意头部姿态下的笑脸检测工作.例如, 文献[20]使用随机森林在视频序列图像上进行任意头部姿态下的表情识别工作, 但该工作训练时使用的是非自然状态下采集的3D表情序列训练数据集(BU-3DFE)[23], 难以满足大量实际应用的需求. Dapogny[22]提出一种基于PCRF (Pairwise conditional random forests)的动态序列人脸表情识别方法.但该方法只针对视频序列图像, 不适合单帧图像的表情识别.

 

在任意头部姿态下进行笑脸检测主要面临两方面的困难: 1)当前缺少任意头部姿态下的自然笑脸数据集; 2)当头部姿态变化范围较大时人脸对齐较为困难, 巨大的类内差异会导致难以设计高正确率和高效率的分类器[4].为更好地在任意头部姿态、低分辨率图像上实现自然笑脸的检测, 本文对LFW数据集[24]做了头部姿态和笑脸的标注, 采集了自然课堂场景下的CCNU-Classroom数据集, 并给出一种基于条件随机森林的自然笑脸检测方法.本文的主要贡献: 1)以头部姿态作为隐含条件, 提出了基于条件随机森林的笑脸检测方法, 降低了非约束环境下头部姿态对笑脸检测带来的不利影响. 2)在使用随机森林建构笑脸分类器时, 给出了一种基于K-Means聚类的决策边界确定方法, 提高了笑脸分类器的准确率. 3)由分别从嘴巴区域和眉眼区域训练的条件随机森林组成层级式检测器, 提高了笑脸检测的准确率.

 1  基于条件随机森林的笑脸检测示意图

 2  层级式笑脸检测流程图

 3  决策树的数量与笑脸分类准确率的关系

 

本文提出一种基于条件随机森林的自然笑脸检测方法.以头部姿态作为隐含条件划分数据空间, 构建了基于条件随机森林的笑脸检测模型, 降低了数据的内类差异, 因此有效抑制了非约束环境下头部姿态多样性对笑脸检测带来的不利影响.提出了一种基于K-Means的分类边界决策方法.相比随机森林算法常用的平均值法或多高斯法等投票方法, 基于K-Means的分类边界法考虑了数据在决策空间的分布, 因此具备更高的笑脸分类准确率.同时, 分别从嘴巴区域和眉眼区域采集图像子块训练两组条件随机森林构成层级式结构进行笑脸检测, 提高了准确率.实验结果表明, 本文方法对非约束环境下的自然笑脸检测具备较好的准确性和鲁棒性.在未来的工作中, 将尝试结合基于AUs的方法来自动选取对笑脸检测最有效的区域, 以进一步提高笑脸检测的准确率.

 

作者简介

 

罗珍珍

华中师范大学国家数字化学习工程技术研究中心博士研究生.主要研究方向为计算机视觉, 模式识别, 图像处理.E-mail:andrealoves@163.com

 

陈靓影

华中师范大学国家数字化学习工程技术研究中心教授.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.E-mail:chenjy@mail.ccnu.edu.cn

 

张坤

华中师范大学国家数字化学习工程技术研究中心讲师.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.E-mail:zhk@mail.ccnu.edu.cn

 

刘乐元

华中师范大学国家数字化学习工程技术研究中心讲师.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.本文通信作者.E-mail:lyliu@mail.ccnu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1421549.html

上一篇:基于一般二阶混合矩的高斯分布估计算法
下一篇:基于长时间视频序列的背景建模方法研究
收藏 IP: 222.131.245.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 23:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部