博文

题目：基于生成模型的无中生有数据增强方法介绍报告人：周池春

已有 1849 次阅读 2023-1-2 11:37 |系统分类:科研笔记

题目：基于生成模型的无中生有数据增强方法介绍

报告人：周池春
时间：2023年1月2日，晚8点30分
地点：腾讯会议

简介：数据，或者确切的说，被标注的数据，是深度学习技术的血液。当前，由于自然语言，图像以及语音等领域数据量丰富等原因，深度学习技术率先在这些领域取得了令人瞩目的成功。下一步，将是深度学习技术在其他领域，如生物信息、天体物理、金融、公安刑侦、泛医疗（包含但是不限于影像医疗）、工业生产控制以及环境保护等领域的应用。尽管是不可阻挡的趋势，但是在这些领域的应用将遇到关于数据的以下几个关键问题：
1）部分领域尽管数据多，但是由于其专业性，导致标记的数据少。例如，天文领域中的星系数据，生物信息领域中的蛋白质序列数据等等。对于这些领域，数据低成本标注是首先要解决的关键问题。
2）部分领域数据稀缺，也就是说，不但标注的数据少，数据本身就稀缺。例如，在医疗中，罕见疾病病例数据缺失（发病率小于万分之一）；在工业生产中，残次品数据缺失（由于工业系统的先进性，残次率低于千分之一）；在环境保护领域，火灾等极端灾害数据缺失；在天文领域，引力透镜，双星系统等特殊星系数据缺失。这些关键数据的缺失导致难以借助深度学习技术解决领域中的关键问题。

内容：本课题组已经系统的对第一个问题进行了研究，并且给出了解决方案，该解决方案在天文[1,2]、生物信息[3]、公安刑侦[4]以及影像医疗[5]等领域得到了应用。因此，本次讨论班继续聚焦于第二个问题进行讨论，探讨如何使用生成模型，无中生有的创造出罕见的数据，实现深度学习技术在这些领域的应用。继判别模型以后，生成模型成为了“第二代”深度学习技术的核心。如果说判别模型是靠计算机强大的“记忆”能力完成任务，生成模型就具有了“联想”的能力。当前，生成模型在图像和自然语言领域掀起了热浪，因为它们取得的成绩着实让人惊叹。然而，除了带来眼花缭乱的视觉效果（DIFFUSION MODEL）[6]和令人惊叹的娱乐功能（CHATGTP）[7]，生成模型能否真正的进一步推动深度学习技术在其他领域实现应用呢？

本讨论班探这个内容将有如下几个关键的难点：

1）生成模型需要大数据才能学会数据的分布，进而给出能够生成近乎真实的数据分布，但是数据又是罕见的，少量的，甚至是没有的，这可怎么办？
2）生成模型不但要生成真实的数据分布，同时好要给出数据特征的丰富性，例如，旋转、缩放、位置、对比度、内部纹理、边缘等等，在没有数据作为前期支撑的情况下，如何造出具有丰富性的数据集。

本次讨论班将给出解决上述两个关键问题的具体方案，方案主要是基于Gan和Gan的变体，如style gan[8]，cycle-gan[9]等这些能够将数据内容与风格分离的技术，并简单汇报当前在部分领域初步实践的基本结果。

参考文献：

1 Automatic morphological classification of galaxies: convolutional autoencoder and bagging-based multiclustering model. CC Zhou, Y Gu, G Fang, Z Lin The Astronomical Journal 163 (2), 86
2 Automatic Classification of Galaxy Morphology: a rotationally invariant supervised machine learning method based on the UML-dataset. GW Fang, S Ba, YZ Gu, ZS Lin, YJ Hou, CX Qin, CC Zhou, J Xu, Y Dai, ...arXiv preprint arXiv:2212.06981
3 An Unsupervised Deep-Learning Method for Classification of proteins （Under study）
4 An Unsupervised Deep-Learning Method for Fingerprint Classification.Yue-Jie Hou, Zai-Xin Xie, Jian-Hu, Yao-Shen, Chi-Chun Zhou (PR with editor)
5 An Unsupervised Deep-Learning Method for Bone Age Assessment. H Zhu, WJ Nie, YJ Hou, QM Du, SJ Li, CC Zhou. arXiv preprint arXiv:2206.05641
6 Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.
7 Aydın, Ömer, and Enis Karaarslan. "OpenAI ChatGPT Generated Literature Review: Digital Twin in Healthcare." Available at SSRN 4308687 (2022).
8 Lang, Oran, et al. "Explaining in style: Training a gan to explain a classifier in stylespace." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
9 A review: generative adversarial networks. L Gonog, Y Zhou - 2019 14th IEEE conference on industrial …, 2019

转载本文请联系原作者获取授权，同时请注明本文来自周池春科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3453120-1370176.html

上一篇：题目：因果推断网络犯罪预测的结果汇报。主讲人：杨嘉耀
下一篇：题目：多级小波分解网络的时间序列预测结果汇报报告人：梁桦杰

收藏 IP: 182.241.13.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

周池春

扫一扫，分享此博文

zhouchichun的个人博客分享 http://blog.sciencenet.cn/u/zhouchichun

博文

题目：基于生成模型的无中生有数据增强方法介绍报告人：周池春

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

周池春

全部作者的其他最新博文

全部精选博文导读

zhouchichun的个人博客分享 http://blog.sciencenet.cn/u/zhouchichun

博文

题目：基于生成模型的无中生有数据增强方法介绍 报告人： 周池春

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

周池春

全部作者的其他最新博文

全部精选博文导读

题目：基于生成模型的无中生有数据增强方法介绍报告人：周池春

该博文允许注册用户评论请点击登录评论 (0 个评论)