Information retrieval
——Daqing He
何老师的课程更为基础,基本覆盖信息检索的基本理论,并对多语言信息存取的基本理论进行了讲述。
信息检索的基本理论主要包括:文档和查询处理(预处理、标引、存储)、检索或匹配模型(向量空间模型、语言模型)、相关反馈及其评估,其中穿插有一些检索评估度量方法和标准(准确率、召回率、评价准确率等)。
何老师的课程中以英文作为语种,因此文档预处理部分的内容就围绕如何对英文文档进行预处理展开讨论,主要涉及tokenization、lemmatization、stemming等预处理方法。文档标引部分主要讲述倒排索引的构成、如何构建等问题;同时详细讨论倒排索引文件的存储结构和方法,如哈希表、B-树等。对于大规模的文档处理来说,速度显得尤为重要,因此一个好的索引文件存取结构显得非常必要。查询处理的一般步骤包括:停用词去除、词干还原、名词短语识别、查询词语的权重计算等。
检索模型部分中,首先讲述了布尔模型的基本概念,布尔模型类似一个hard classifier,比较简单但缺陷也较多;其次讨论了特征权重的计算方案,包括tf、 df、 tf-idf 、似然频率权重等;重点对向量空间模型的理论进行了系统的讲解,涉及向量构成、向量表示、余弦相似度、归一化等基本内容。信息检索中的统计语言模型可以看作是一个生成模型,即生成某种语言文本的一种概率机制。
相关反馈的运用基于这样的事实:用户的查询并不总是接近其真实的信息需要,而通过对检索到的相关或不相关文档的分析能够生成更符合用户信息需要的查询。相关反馈的信息可以从用户的检索行为中获取(显式相关反馈),也可将检索系统返回的前N个文档作为相关文档(即伪相关反馈)。通过对相关反馈信息的运用,可以对查询特征项重新赋予权重,或进行查询扩展,或应用到其他的检索任务中如跨语言信息检索。相关反馈的评估中以TREC作为引子,详述了当前一些常用的评估方法和标准。
在多语言的信息存取中,首先讲述跨语言信息检索的三大关键问题:翻译什么,如何获取翻译知识,怎样使用翻译知识;其次是多语言信息存在的一些关键问题。在多语言信息存取中,课程内容的一个理念是:多语言信息存取应该是以用户为中心的,是人机交互的一个动态的过程。因此为了支持交互的多语言信息处理,解决跨语言信息检索中出现的翻译歧义问题,相关反馈(relevance feedback)的应用显得尤为重要。查询扩展则作为查询、查询翻译、相关反馈等环节的联系纽带,通过查询扩展,相关反馈的信息得以利用,从而有效解决了部分查询翻译歧义的问题。机器翻译是解决多语言信息存取中跨语言查询翻译的另一个方法。
Project部分要求在Lucene基础上,对于给定的文档集合,建立索引并存储;利用Trec做一个评估测试;基于Lucene设计一个简单的语言模型;使用Google Tranlate搭建一个多语言的Lucene;使用在线词典构建多语言的Lucene。
2 Project
所有的project都是在一个实验室进行的,其中以机器翻译组尤为活跃。大概是由于举办单位哈工大有个机器翻译课题组,因而多了许多高手,讨论的比较激烈。相比之下,referring expression生成小组人数有些单薄,不到10个人;而信息检索小组虽然人数居多,但因为何老师走了,没有辅导人员,也显得有些落寞,不过有一部分人还是完成了部分任务。
3 感想
研讨班的四门课程讲的都是一些基本问题,关注理论前沿的内容较少!总体而言,对我来说,帮助仍然是很大的,尤其是信息检索的内容。虽然有些理论和概念早有看过,但总有些问题理解不够深入,听过何老师课程,解决了很多疑惑。遗憾的是,因为project部分要求用Java实现,而我本身是不懂Java语言的……事实上,如果能完成project中的任务,对我的帮助会更大。
另外,不得不提的是,英语的听说水平实在是有待提高。刚开始听课,感觉就是在听天书,偶尔才能听懂几个单词。好在有讲义,听几句,翻讲义,再加上猜,对基本内容有了基本了解。看来,以后的学习中,对于英语的听说学习应该强化。
考虑一下在时间和能力允许的情况下,学习下Java语言,因为有很多开源的工具用Java编写,如果会一点,一定大有裨益。关注机器学习在信息检索、文本挖掘领域的应用,貌似机器学习的方法很管用。
——后记
其实,整个2.5天的课程中,几乎每天我都有不同程度的瞌睡,我也是相当郁闷,在学校再怎么熬夜也不会如此困,何况在哈尔滨那几日都是10:30左右睡觉。也许是感冒的缘故,也许是有太大压力吧,抑或是其它,哎,这个问题真是个谜……
在哈尔滨的几天,真的没有出过汗,凉爽,绝佳的避暑胜地……但是如果像我一样,感冒了,就不OK了,那只能是杯具……
回南京时,在北京转车,有5个小时的候车时间,偷空去了天安门,赶上看降旗了,也算不枉路过北京。不过郁闷的是,其实没看清楚,仪式没开始的时候,觉得自己站的位置还不错,应该可以看清楚,可是等快开始的时候,前面突然多了N多比自己高的,举着相机,无语……