博文

ETH Zurich重磅综述 | 人脸-素描合成：一个新的挑战

已有 2231 次阅读 2022-8-2 17:19 |个人分类:好文推荐|系统分类:论文交流

MIR第四期发表苏黎世联邦理工大学研究团队重磅综述，第一作者为苏黎世联邦理工大学(ETH Zurich)博士后研究员范登平。文章旨在对人脸素描合成(FSS)进行全面研究，首次构建了一个高质量的FSS数据集，通过回顾89种经典方法从而展示了最大规模的FSS研究。此外，文章对现有的19个前沿模型进行了综合实验，同时提出了一个简单的FSS基线模型，命名为FSGAN。最后总结了过去几年的经验教训，并指出了几个未解决的挑战。全文免费下载，并提供源代码及中文译本，欢迎下载阅读！

Springer截图.jpg

图片来自Springer

全文下载：

Facial-sketch Synthesis: A New Challenge

Deng-Ping Fan, Ziling Huang, Peng Zheng, Hong Liu, Xuebin Qin, Luc Van Gool

https://link.springer.com/article/10.1007/s11633-022-1349-9

https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1349-9

[Code] [Evaluation tool] [FS2K dataset]

[FaceSketch-Awesome-List]

文末填写收件信息可免费获取中英文纸质版全文

人脸素描合成(FSS)从人脸RGB图像产生灰度素描(图片到素描，I2S)，或者相反(素描到图片, S2I)。FSS通常用于执法或监视，以目击者的素描为基础，协助识别和检索人脸。对于娱乐用途，素描合成可用于移动app，如TikTok和Facebook。另外，素描合成对于数字娱乐来说也是很有吸引力的话题。过去十年，FSS的研究已经取得了很大的进展。不同于其他人脸相关的数据集，比如人脸识别、人脸检测、人脸关键点检测、人脸对齐和人脸合成，这些数据集不需要标注人员经过训练就可以手工标注，而人脸素描合成数据集的获取则要困难的多，因为只有一些专业的艺术家才能绘制出高质量的参考图像。由于获取专业素描数据需要很高的代价，目前人脸素描数据集规模较小且多样性有限。这些不足已严重限制了FSS的发展，尤其是对需要大量数据的深度学习模型。

另外，如何评价FSS模型仍然是一个有待讨论的问题。结构相似度(SSIM)是评价图像质量最为广泛的评价指标之一，所以它通常也被用来评价S2I模型的性能。然而，人脸素描的特性与基于RGB的人脸图像有很大的不同，这也使得将当前的评估指标应用于I2S任务变得具有挑战性。因此，需要一种新的客观的、定量的、与人工评估高度一致的指标来评测FSS任务。

此外，由于缺少高质量数据集和合适的评价指标，不同的FSS模型通常建立在不同的训练数据集上，并使用不同的评估方法进行测试。因此，很难提供公平且全面的比较。进一步说，许多图像-图像变换相关任务的先进变换模型也可以用到FSS任务，例如，CycleGAN、UNIT、Pix2pixHD、SPADE、DSMAP、NICE-GAN和DRIT++。然而，因为数据集和评价指标的不足，这些模型缺乏对于FSS任务的性能评价。因此，采用一个标准的度量指标并在一个标准的FSS数据集上对FSS相关的模型进行全面的对比和评价已是当务之急。为此，本文提出并维护一个在线文章列表(https://github.com/DengPingFan/FaceSketch-Awesome-List)，目的就是为了追踪这个快速发展的领域的进展。

动图.gif

作者团队供图

贡献

本文的目标是解决这些悬而未决的问题(比如，有限的数据集、度量指标和基准)并进一步为FSS社区带来新的挑战。主要的贡献如下：

1) FSS数据集。本文构建了一个新的高质量FSS数据集，名为FS2K。此数据集为目前最大(见表1)公开的FSS数据集，包含2104组图像-素描对，并且搜集的人脸图像包含多种图像背景、肤色、素描风格以及光照条件。此外，本文提供额外的人脸属性，比如，性别、笑容、发型等等，目的就是为了使深度学习模型学习到更多详细的线索。

表1.jpg

作者团队供图

2) FSS综述和基准。本文进行了大规模的FSS调研，综述了89个有代表性的方法，包括25种手工设计特征的模型、29种用于通用转换任务的模型和35种I2S转换算法。基于本文提出的FS2K，本文采用SCOOT指标，从内容和风格的角度对19个最先进的模型进行了严格的评估。

图2.jpg

作者团队供图

3) FSS基线方法。本文设计了基于GAN的有效的基线方法，名为FSGAN，其包含两个核心部分，即人脸感知掩模和风格向量扩展。前者用来修复人脸组件部分的细节，而后者被用来学习不同的人脸风格。在本文新建的FS2K数据集上，FSGAN作为I2S和S2I任务(图1)统一的基准模型。本文的项目可以在此获取https: //github.com/DengPingFan/FSGAN。

图1.jpg

作者团队供图

4) 讨论和未来发展方向。除了进行一个整体的性能评价，本文也进行了属性级别的评价，给出了详细的讨论，并探索一些有前景的方向。

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将在7个工作日内为您免费寄送纸版全文！

收件信息登记：

https://www.wjx.cn/vm/rfQWEKc.aspx

特别感谢本文第一作者、苏黎世联邦理工大学博士后研究员范登平对以上内容的审阅和修改！

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。