||
2013年7月24到26日,参加了为期三天的在哈尔滨工业大学威海校区举办的由中国中文信息学会主办、微软亚洲研究院赞助的第八届语言技术暑期学校。听取了多位自然语言处理领域的国际知名专家授课,他们是微软亚洲研究院Jun'ichi Tsujii教授、爱丁堡大学Philipp Koehn教授、英国Exeter大学Richard Everson教授、剑桥大学Diarmuid ó Séaghdha博士、英国阿伯丁大学Chenghua Lin博士,讲座内容包括机器学习、句法分析、语义分析、统计机器翻译和情感分析等。
第一天早上进行开幕式,Philipp Koehn教授代表各位专家致辞简要阐明了人类与机器交流所需的自然语言处理技术给人类社会带来和即将带来的现实应用。微软亚洲研究院的吴枫博士和刘康平博士为到场各位师生展示了微软公司近年来在人机交互技术方面所取得的重要成果,包括speech translation、kinect、hair modeling等技术。紧接着Philipp Koehn教授讲授了统计机器翻译相关内容,讲到机器翻译共有三个层次,分别为词汇转换、句型转换、语义转换。统计机器翻译就是对众多的已翻译平行语料进行统计分析建立翻译模型来指导新的需要翻译的语料,通过概率值的计算最终从众多的翻译结果中找到最好的翻译结果,也就是概率值最大的。翻译中存在的问题包括从词语的角度讲存在着一词多义的问题,我们需要利用上下文找到此语境下的最佳翻译,从短语的角度讲如何准确的翻译一些惯用搭配,从句子的角度讲存在多种句子结构重组的问题,从语义的角度讲如何准确的翻译出一些指代词。由于每一个句子每一个词语的翻译可以有多种,我们需要从中找出最好的翻译,我们根据语料中每个词语短语的使用频率,建立翻译路径找出最好的翻译组合。最后Philipp Koehn教授讲授了如何将机器翻译与人工翻译结合,使得机器翻译能够最大化的帮助人进行翻译。下午Jun'ichi Tsujii教授进行了句法分析相关内容介绍,我们需要实现快速深入准确的分析句子,对不同的句子类型我们需要清晰的辨别出主语宾语以及它们之间的谓语动词,利用隐马尔科夫模型进行词语标注和预测,利用树形结构表示每个句子,通过对句子进行详细的标注与分析可以解决许多的检索问题。
第二天上午是学生研讨会,有来自北京师范大学、沈阳航空航天大学等的学生进行了口头报告。北师大的三位同学报告了机器翻译相关研究,第一位同学研究专利翻译的相关内容,重点研究名词+动词结构的识别问题,利用HNC理论;第二位同学研究专利翻译中长句子的识别问题,通过建立一些规则识别出长句子中的连词、动词等;第三位同学主要讲解了机器翻译中人类和机器进行交互相关问题。最后一位同学主要研究中心词的提取问题,利用经典的齐普夫(Zipf)定律。下午Koehn教授做了“如何做研究和撰写学术文章”的讲座。Koehn教授讲到做研究的过程have an idea→define the problem→define an evaluation→preliminary studies→implement a baseline→implement you method→evaluate analyze refine。接着对学术文章的各个部分的注意事项就行了详细的介绍,具体包括abstract、introduction、related work、description of the problem、description of your method、experimental setup、results、analysis部分。
第三天上午Richard Everson教授讲授了机器学习的基本内容,主要包括逻辑回归问题、分类问题、非监督学习,如何从大量的头像图片中识别出某一个人、信息检索的结果如何排序、预测受伤者是否可以得救、自动对大量药物进行类型分类等都是机器学习可以解决的问题。机器学习可以分为监督学习和非监督学习,监督学习包括分类和回归,非监督学习包括聚类、PCA、ICA、LDA等。逻辑回归是在已知大量对象的特征输入和输出的情况下,预测新对象的输出结果,利用实际值和预测值之间的差值是否最小进行预测结果评估,分类同样是在在已知大量对象的特征输入和输出的情况下,不同的是输出的是对象类别而不是具体的值,在基于大量对象的学习的基础上根据新对象的输入属性值判定其类别。分类方法中最简单的一种方法就是最近邻分类器,根据对象近距离对象中每种类型的频率判断该对象的类型。然后介绍了神经网络算法,重点讲解了隐含层个数的选择,如果过多就会过拟合,过少就会欠拟合。接着进一步讲授了对于对象有多个属性时如何进行降维处理和对非线性模型的处理,结合具体的在图像处理和语音分离中的应用。最后介绍了三种进行机器学习研究的开源软件,分别是weka、python中的scikit-learn包、matlab中的netlab包。最后Richard Everson教授指出我们在做研究的过程中如何快速的实现我们的想法是最为重要的,不需要花很多的时间在具体细节的实现上,使用这些开源包,可以使我们的研究事半功倍。下午Chenghua Lin博士给我们讲解了情感分析和意见挖掘相关内容介绍。用户对某一对象意见的表达方式可以分三种,一种是直接表达,一种是隐含表达,一种是使用反讽语气表达。情感分析有三个层级,词语层、句子层、文档层,有两种传统的情感分类技术,分别是基于词典的方法和基于语料的方法。基于词典的方法就是利用情感词典对文本进行直接匹配,基于语料的方法就是对训练语料进行特征提取,利用朴素贝叶斯、支持向量积、最大熵等算法进行模型学习将学好的模型应用到测试集上,结果显示SVM算法的表现最好。接着Chenghua Lin博士讲解了最新的利用主题模型技术(LDA)进行情感分类,以及LDA模型的扩展JST模型和reverse-JST模型的应用。最后一部分讲解了在某些领域训练数据不足的情况下,可以使用其他领域的数据进行迁移学习的比较研究。
各位专家除了介绍了各自研究领域的基本理论和方法,还以大量生动的例子和研究结果介绍了本领域内最新研究进展,受益匪浅。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 14:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社