||
2. Transfer Learning and Applications [pdf]
Speaker:杨强 HKUST 教授,General chair of SIGKDD, 华为诺亚方舟实验室主任
杨强还是讲的迁移学习,不过却很有趣,迁移学习可以看做强化学习的一种,将一个领域习得的知识用于另一个领域,用于不同domain的knowledge transfer, 由labeled data扩展到unlabeled dataset,对于一些标注代价昂贵且不易获得的数据集很有用,应用较广泛。
一个简单的例子是,我们要针对中文的网页训练一个数据集,但是我们手上没有或只有少量的中文网页数据,却有充足的标注好的英文的数据集。目标还是一样,对未标注的中文数据集进行分类,这就是所谓的跨语言分类(cross-language classification)如图,显然这有别于传统的文本分类,因为在这里训练数据和测试数据是两种不同的语言。
Scenario就是这样,那我们应该怎么办呢? 在所有异质迁移学习任务中,我们首先需要建立两种异质特征空间的联系,在这里我们有充足的英文语料,但目标是对只有很少标注语料的中文文档进行分类,所以需要对两种语言的数据集建立关联,bridge两种特征空间((注:在文本分类里,特征空间就是词汇空间)),所以一个直观solution是想办法获得两种特征空间(这里表现为中文和英文词汇)的共现(co-occurrence)数据(例如我们手上有个字典,将英文term和中文term match起来),通过这种方法,我们可以根据他们的共现频率去估计两种数据集在特征(词汇)层面的迁移概率。因而能利用训练得到的英文分类器去分类标注中文文档,进而迭代获得更多的标注数据。
另一个有趣的场景是,如何利用文本训练数据集去对图像做分类? 众所周知图片的标注数据集相对于含有特定主题的文本而言是很难获得的。
同时在实验中对一个很意思的命题进行了论证: 所谓一图抵千言, 真的是这样么?准确么?那么一幅图究竟能代表多少字呢?
方法还是一样的,首先需要发现图像和文本特征空间的关联,找到沟通他们的桥梁。
好在这种关联并不难以找到,通过爬取一些社交网站(如flickr等)上,人们对图片打上的标签(tag)。获得图像和对应标签注释文本之间的共现数据,从而建立起图像特征空间和文档特征空间之间的关联。
在实验中,如果要达到75%的分类准确率,需要100多个标注图片,而如果使用文档(document)的话,要达到相同的准确率需要200多个文档。因此我们可以得出
each Image = 2 text documents = 1000 words(statistically per documents has average of 500 words) 即所谓的一图抵千字!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-1 01:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社