|||
以前断续写过一些随笔。 (899 bytes)
Posted by: 立委
Date: September 22, 2008 12:18AM
不外是两个路子,基于语法规则的路子,基于统计的机器学习(ML)路子,或者是二者的某种结合。不过,语法的路子并不大用乔姆斯基的转换生成语法。除了教授在实验室做玩具系统外,应用系统中最多用最熟练的是基于模式匹配的有限状态自动机(FSA)的formalism,而不是常提到的上下文自由语法。
自然语言理解(NLU)的核心是自动句法分析(parsing). 这个领域的发展使得 parsing 这样一个繁复的的任务逐渐细化成由浅及深的很多子任务,从词类识别(Part-of-speech tagging),基本短语抱团(phrase chunking), 到句法主谓宾关系(SVO parsing), 语义角色标注(Role Labeling)等等。这就为系统的模块化创造了条件,有利于软件系统的开发和维护。通常的做法是为每个子任务编制模式匹配规则,构成一个一环套一环的系列(pipeline structure), 前一个模块的输出就是下一个模块的输入, 搭积木一样构筑语言理解的大厦(via some form of cascaded FSAs)。
随着硬件的飞速发展,parsing 已经可以处理海量数据(terabyte 量级),应用型开发不再是梦想了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社