讲者:李海昌 报告时间:2012.10.10 文章信息: paper #1:Wenyuan Dai, Gui-Rong Xue, Qiang Yang, Yong Yu, Transferring Naive Bayes Classifiers for Text Classification, AAAI 2007. paper #2:Kamal Nigam, Andrew Kachites Mccallum, Sebastian Thrun, Tom Mitchell, Text Classification from Labeled and Unlabeled Documents using EM, Machine Learning 1999. 文章简介: Problem: 训练集和测试集来自不同的数据源,分布不同,但来自相同的特征空间。比如:以标注的新闻文档为训练集,对博客文档的话题进行分类。 Model:在已有的贝叶斯分类器和EM结合的算法基础上,给出计算标签数据集和未标签数据集在分类器中所占的比重的方法:计算标签数据分布和未标签数据分布的KL离散度,并手工调出标签数据集和未标签数据集在分类器中所占的最优比重与KL离散度的函数关系。将计算出的比重,作为全局常量带入原模型求解。 Paper #2: Problem: 文档分类。 Motavition: 使用未标注样本的信息。 Model:使用EM与贝叶斯分类器的组合对文档进行分类,是半监督分类的方法。首先使用标注的数据训练传统的贝叶斯分类器,然后利用得到的分类器对测试样本分类,再使用标注样本和得到的测试样本的后验概率,训练贝叶斯分类器,如此循环直到收敛。