随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

全国第五届机器翻译会议观感

已有 4599 次阅读 2009-10-17 22:39 |个人分类:NLP|系统分类:科研笔记|关键词:机器翻译,语言知识| 机器翻译, 语言知识

转眼之间,南京大学承办的第五届机器翻译会议闭幕了。这次会议汇聚了国内主要的机器翻译研究机构的大牛们,会议报告和讨论都十分有激情。会议上,参与今年机器翻译评测的各机构讨论总结了机器翻译及评测的若干问题。我自己并不怎么搞机器翻译,只能就自己的理解总结如下:
1 国内自己举办的评测,直接推动了国内同行的交流和共同进步。由于评测方是中国人,更能体会评测中存在的问题,这样能更好地敢追甚至超越国际同行。
2 统计机器翻译方法占据了绝对主流。包括SYSTRAN,虽然主干是几十年来一贯的规则系统,但也增加了很多统计方法,优化翻译结果。
3 MOSES成为基本平台。酷似SIGHAN的比赛,各支参赛队都用上了摩西系统(http://www.statmt.org/moses/),或直接利用,或修改或重写代码。几天的报告下来,摩西成了最高频的词语。连董振东老师都评价道:你们说参加评测的哪个系统最成功?我看是摩西。
4 语言知识的利用进一步加强。句法分析的引入,使得SMT效果有了一定的提升。句法信息,作为一种结构化的启发性知识,应该可以提升效果。句法分析的质量对提升度也基本成正比。那么下一步需要什么样的语言知识,成为与会者关注的话题。毕竟这不是一个简单的问题,google的大牛就说,SMT中的语言知识是有害的。
5 机器翻译的产学研一体化还有很长的路要走。由于目前的机器翻译质量很不理想,难以应用到直接的翻译领域,但作为辅助翻译还是有市场的。沈阳的格微软件就推出了国内第一款辅助机译系统。
6 机器翻译遇到严冬还是春天?机译系统的低性能,多年来的慢进展,使得国家投入也萎靡不振。即使奥巴马政府的白皮书支持美国的MT,也没办法让SMT在十年内达到全新的高度。美国的聪明人很多,语言学家也很多,机器翻译的真正提高,目前还是靠语言资源的增加(比如谷歌的海量数据)。没有新的语言理论,机器翻译不管投入多少钱,不管社会多需要,都不可能达到较为理想的地步。所以,我同意“没钱不好做事情”,但对“有钱就一定可以”持保留意见。

好了,从语言和计算的角度谈谈自己的看法。我关心的是可计算的语言知识的构建,现有的语言知识库,大都处于唯物主义的范畴,几乎不顾及语言的主观性,所以是僵化的系统。这样的知识并不是语言知识,而是世界知识或常识。语言知识是什么,就拿汉语的语气词来说,“呢”有多种用法,这些用法与什么客观的东西都不相干,而是表达的说话人的不同意图、认识。不从根本上重建基于认知的心理的语言知识库,就没法给机器翻译或其他的NLP带来真正的帮助。

http://blog.sciencenet.cn/blog-39714-263200.html

上一篇:如何生存在这个被污染的世界(6)微波炉和香酥鸡
下一篇:《世界因你不同》——改变旧称“欲为中国IT学生之心灵买办”

2 武夷山 章成志

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-8-20 02:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部