|||
就这个问题,以前写过【研发笔记:没有语言结构可以解析语义么?浅论 LSA】,介绍的是很流行的 LSA 统计算法,它利用自然语言篇章中的一袋子关键词(bag of words)之间的 lexical coherence,绕过语法结构分析,模拟语义,也显得很智能的样子。
无独有偶,绕过语言结构解析语义在传统的知识系统中早有先例,也算是统计派的殊途同归吧,但却早了好几十年。话说当年有一位学者,名字还记得,叫 Small (写科普随笔博文不算正式发表,就懒得查出处了,后学有兴趣者可以自己查去),他发明了一套叫做专家词典的系统(Expert Lexicon system:后来刘倬老师带我们做新一代机器翻译,继承发展了这个思想,在不排除抽象语法分析的同时也引入了专家词典的机制,成果在第二届机器翻译最高级会议上有发表)。Small 的系统基本是一个典型的传统 AI (Artificial Intelligence)的 toy system,运用在一个非常狭窄词汇量有限的领域内。这个系统基本上就是一部词典,缺乏抽象度,也没有语法结构分析。词与词之间的语义搭配关系被编制在专家词典里。这样的语义解析是注定不能 scale up的,但是在一个狭窄的领域,还是可以成事的。
顺着这个思路,AI 和 MT (Machine Translation)界当年有一位超级大牛(记得是大英百科全书特聘的这个领域顾问),曾经在美国客座 New Mexico 大学的英国教授 Wilks 研究了一个所谓第三代纯语义机器翻译系统。为了追求纯粹美,Wilks 有意排除任何语法形式信息(譬如词类信息)和被证明高效有用的语法抽象规则(譬如形容词在名词前做其修饰语),而是通过词与词之间的具体搭配关系来解析语义。他的理论叫做优选语义学(Preference Semantics),里面设计了很多语义模板,来表达词与词之间潜在的语义搭配关系,当时对我们是很有影响很有启发的学说(我的一位同门黄学长就曾在Wilks身边做过博士)。Wilks 证明了没有结构分析(严格的说,是没有形式结构分析),也是可以解析语义关系的,并且把它成功运用到机器翻译的模型上去,探索了一条崭新的道路。当然,实用主义者很快发现,这种舍近求远的解析语义方法是低效的,也是难以 scale up 的。经验告诉我们,对于自然语言理解,八分结构,两分语义,才是规则系统的正道。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-14 01:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社