|
题目:数据的特征相关性和生成这些数据需要的数据量的关系
主讲人:陆宇超
地点:腾讯会议
时间:2024-08-12
主要内容:生成一个数据意味着模型了解了这种数据,因此具有重要的意义。例如,一个医生可以构造出一个病患的病例,说明医生对于这种疾病了如指掌;一个学生可以构造出一个题目,说明这个学生已经掌握了这个知识;一个小朋友可以创造出一幅孔雀的画像说明他已经认识了孔雀这种动物。同样的人工智能模型能够生成一种数据,说明这个模型已经“了解了”这种数据。
然而,生成模型的训练一般需要很大的资源。从可行性上讨论一种数据在有限的资源下能否被模型很好的“了解”进而被生成很重要。
数据被生成的关键就是数据特征的联合概率分布能不能被模型有效的拟合。这个和数据本身的“复杂性”密切相关。例如,简单的数据在更少的资源下可以被生成;而复杂的数据理所当然需要再更多的资源下被生成。
尽管我们能够很容易的知道数据复杂程度和训练生成模型所需要的资源之间的定性关系,但是对于他们之间定量关系的研究甚少。因为数据复杂程度如何描述?生成模型所需要的资源如何描述?如何评价生成的数据的质量等等都是问题。
在这个讨论中,我们用数据的特征相关性表征数据的复杂程度,我们用FID指标衡量生成数据的质量,我们以数据量的大小衡量资源的多少,然后讨论和生成这些数据需要的数据量的关系。
以GAN为代表的生成模型,在MNIST手写数字数据集上进行探索,讨论生成模型要生成具有普遍性和真实性的数据,需要多少样本进行训练。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-8 21:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社