博文

2010 summer school——人类语言技术HLT学习心得

已有 5583 次阅读 2010-9-1 21:25 |个人分类:科研心得|系统分类:科研笔记| 2010, summer, 机器翻译, School, 人类语言技术HLT

——小记

来哈尔滨之前，曾有想过，回来写篇日志，记录一下这次学习经历。但后来有事就给搁浅了。现在章老师希望有个书面汇报，于是写了一篇文档，顺道一并写了这篇博文。不曾想，这也竟是我在科学网博客自己写的第一篇博文……

时间：2010.8.16~2010.8.20

研讨班：2010暑期研讨班（自然语言处理）

地点：哈尔滨工业大学

与会学生人数： 73人左右

特邀报告人：4名

2010 HIT-MSRA Summer School On Human Language Technology，哈尔滨

研讨班共有5天，2.5天课程，2.5天Project。

研讨班主页：http://mitlab.hit.edu.cn/2010summer/zh_index.php

课程资料：http://mitlab.hit.edu.cn/2010summer/zh_courses.php

1课程内容梳理

Learning to rank for information retrieval

——刘铁岩博士 @微软亚洲研究院

2010.8.16上午，在简单的研讨班举办情况介绍、哈工大机器翻译实验室简介、特邀报告演讲人发言、所有与会人员合影之后，便开始了第一门课程：Learning to rank for information retrieval。这是来自微软亚洲研究院的刘铁岩主讲的，也是四个课程中唯一没有Project任务的。

课程首先对机器学习进行了概述。其中重点讲述了监督学习的四个要素：输入空间、输出空间、假设空间、损失函数（loss function）。文档对象通过特征向量表示。其次介绍了传统的排序模型，主要查询依赖模型、查询独立模型。由于在传统的排序模型中手工调整参数是很困难的，因此紧接着课程就讲述机器学习方法在排序中的运用，主要内容涉及主要的学习算法、各种方法的优劣分析、评估方法和数据集。在课程最后，讨论了在学习排序模型中一些前沿的话题，并进行了总结。对于这个课程简单总结一句：利用机器学习的方法训练数据，获取一个性能比较好的排序模型。

Phrase-based statistical machine translation

——Lars Ahrenberg，基于短语的统计机器翻译

http://vir.liu.se/~lah/index.en.shtml

课程从基于词语的机器翻译讲起。基于词语的机器翻译有许多缺陷，因此基于短语的机器翻译研究成为热点话题。基于短语的机器翻译通常方法是在词语对（Giza++）的基础上，运用启发式方法发现短语对。研究表明：基于短语的翻译优于基于词语的翻译；在预处理中融入语言学知识例如tagger、parser等对翻译系统性能是有帮助的……

课程中有提到Factored translation，对我来说是比较新的概念。一般的翻译模型是遵循Word-Lemma-POS模式，而Factored 模型则Lemma -POS-Word模式，即首先翻译lemma，其次翻译POS词性类别，最后从lemma和POS词类中生成Word。使用Factored translation models主要依据是：词语的统计信息大量出现在lemma层次，许多语言中的名词短语可以在POS中捕获，在训练数据中不能观察到的形式可以通过对词语的某些组成部分的分析获得。

课程中介绍了Moses系统，最后的project要求使用中英平行语料，基于Moses开发一个统计翻译平台。

Generation of referring expressions（GRE）：the state of art

——Kees Van Deemer，指称表达式生成-GRE

http://www.csd.abdn.ac.uk/~kvdeemte/

在课程的第一环节，Deemter教授花了一部分时间讲述GRE到底在怎么一回事。我的理解就是：对于一个给定的场景或对象，设计一个算法用最准确的属性恰当地描述场景或对象，并且这种描述能识别唯一的一个场景或对象。简言之，这个算法需要找到最好的描述该对象的属性或者识别出该对象的独有属性。

在具体的指称表达式生成（GRE）的算法设计中，当前的方法和技术一般都是限定在某一个领域中，枚举对象的所有属性，通过类似查找筛选的方法（判断对象是否具有该属性，属性是否在领域类别中及属性的取值等），搜索并返回能够表征某个对象的最佳属性。

在GRE评估中，基本思想是：计算机器生成的referring expression和人类生成的referring expression之间的相似度，比较相似度差异，从而判断算法的优劣。实质是计算机生成的文本与人类生成的文本之间的相似度比较。GRE对领域非常依赖的，准确率也有待提高。

Project部分则要求设计一个算法，实现简单的GRE。

Information retrieval

——Daqing He

http://www.sis.pitt.edu/~daqing/

何老师的课程更为基础，基本覆盖信息检索的基本理论，并对多语言信息存取的基本理论进行了讲述。

信息检索的基本理论主要包括：文档和查询处理（预处理、标引、存储）、检索或匹配模型（向量空间模型、语言模型）、相关反馈及其评估，其中穿插有一些检索评估度量方法和标准（准确率、召回率、评价准确率等）。

何老师的课程中以英文作为语种，因此文档预处理部分的内容就围绕如何对英文文档进行预处理展开讨论，主要涉及tokenization、lemmatization、stemming等预处理方法。文档标引部分主要讲述倒排索引的构成、如何构建等问题；同时详细讨论倒排索引文件的存储结构和方法，如哈希表、B-树等。对于大规模的文档处理来说，速度显得尤为重要，因此一个好的索引文件存取结构显得非常必要。查询处理的一般步骤包括：停用词去除、词干还原、名词短语识别、查询词语的权重计算等。

检索模型部分中，首先讲述了布尔模型的基本概念，布尔模型类似一个hard classifier，比较简单但缺陷也较多；其次讨论了特征权重的计算方案，包括tf、 df、 tf-idf 、似然频率权重等；重点对向量空间模型的理论进行了系统的讲解，涉及向量构成、向量表示、余弦相似度、归一化等基本内容。信息检索中的统计语言模型可以看作是一个生成模型，即生成某种语言文本的一种概率机制。

相关反馈的运用基于这样的事实：用户的查询并不总是接近其真实的信息需要，而通过对检索到的相关或不相关文档的分析能够生成更符合用户信息需要的查询。相关反馈的信息可以从用户的检索行为中获取（显式相关反馈），也可将检索系统返回的前N个文档作为相关文档（即伪相关反馈）。通过对相关反馈信息的运用，可以对查询特征项重新赋予权重，或进行查询扩展，或应用到其他的检索任务中如跨语言信息检索。相关反馈的评估中以TREC作为引子，详述了当前一些常用的评估方法和标准。

在多语言的信息存取中，首先讲述跨语言信息检索的三大关键问题：翻译什么，如何获取翻译知识，怎样使用翻译知识；其次是多语言信息存在的一些关键问题。在多语言信息存取中，课程内容的一个理念是：多语言信息存取应该是以用户为中心的，是人机交互的一个动态的过程。因此为了支持交互的多语言信息处理，解决跨语言信息检索中出现的翻译歧义问题，相关反馈（relevance feedback）的应用显得尤为重要。查询扩展则作为查询、查询翻译、相关反馈等环节的联系纽带，通过查询扩展，相关反馈的信息得以利用，从而有效解决了部分查询翻译歧义的问题。机器翻译是解决多语言信息存取中跨语言查询翻译的另一个方法。

Project部分要求在Lucene基础上，对于给定的文档集合，建立索引并存储；利用Trec做一个评估测试；基于Lucene设计一个简单的语言模型；使用Google Tranlate搭建一个多语言的Lucene；使用在线词典构建多语言的Lucene。

2 Project

所有的project都是在一个实验室进行的，其中以机器翻译组尤为活跃。大概是由于举办单位哈工大有个机器翻译课题组，因而多了许多高手，讨论的比较激烈。相比之下，referring expression生成小组人数有些单薄，不到10个人；而信息检索小组虽然人数居多，但因为何老师走了，没有辅导人员，也显得有些落寞，不过有一部分人还是完成了部分任务。

3 感想

研讨班的四门课程讲的都是一些基本问题，关注理论前沿的内容较少！总体而言，对我来说，帮助仍然是很大的，尤其是信息检索的内容。虽然有些理论和概念早有看过，但总有些问题理解不够深入，听过何老师课程，解决了很多疑惑。遗憾的是，因为project部分要求用Java实现，而我本身是不懂Java语言的……事实上，如果能完成project中的任务，对我的帮助会更大。

另外，不得不提的是，英语的听说水平实在是有待提高。刚开始听课，感觉就是在听天书，偶尔才能听懂几个单词。好在有讲义，听几句，翻讲义，再加上猜，对基本内容有了基本了解。看来，以后的学习中，对于英语的听说学习应该强化。

考虑一下在时间和能力允许的情况下，学习下Java语言，因为有很多开源的工具用Java编写，如果会一点，一定大有裨益。关注机器学习在信息检索、文本挖掘领域的应用，貌似机器学习的方法很管用。

——后记

其实，整个2.5天的课程中，几乎每天我都有不同程度的瞌睡，我也是相当郁闷，在学校再怎么熬夜也不会如此困，何况在哈尔滨那几日都是10:30左右睡觉。也许是感冒的缘故，也许是有太大压力吧，抑或是其它，哎，这个问题真是个谜……

在哈尔滨的几天，真的没有出过汗，凉爽，绝佳的避暑胜地……但是如果像我一样，感冒了，就不OK了，那只能是杯具……

回南京时，在北京转车，有5个小时的候车时间，偷空去了天安门，赶上看降旗了，也算不枉路过北京。不过郁闷的是，其实没看清楚，仪式没开始的时候，觉得自己站的位置还不错，应该可以看清楚，可是等快开始的时候，前面突然多了N多比自己高的，举着相机，无语……

转载本文请联系原作者获取授权，同时请注明本文来自刘飒科学网博客。
链接地址：https://blog.sciencenet.cn/blog-441873-358388.html

下一篇：中英文文本预处理软件、工具和算法

收藏 IP: .*| 热度|

当前推荐数：1 推荐人：章成志

发表评论评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

刘飒

扫一扫，分享此博文

Just begin分享 http://blog.sciencenet.cn/u/Smile321 Just begin ,long long way ahead !

博文

2010 summer school——人类语言技术HLT学习心得

当前推荐数：1 推荐人：章成志

发表评论评论 (1 个评论)

刘飒

全部作者的其他最新博文

全部精选博文导读

相关博文

Just begin分享 http://blog.sciencenet.cn/u/Smile321 Just begin ,long long way ahead !

博文

2010 summer school——人类语言技术HLT学习心得

当前推荐数：1 推荐人： 章成志

发表评论 评论 (1 个评论)

刘飒

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：章成志

发表评论评论 (1 个评论)