|||
白硕老师最近的文章【白硕 - 穿越乔家大院寻找“毛毛虫”】,值得所有自然语言学者研读和反思。击节叹服,拍案叫绝,是初读此文的真切感受。白老师对乔姆斯基形式语言理论用于自然语言所造成的误导,给出了迄今所见最有深度的犀利解析,而且写得深入浅出,形象生动,妙趣横生。这么多年,这么多学者,怎么就达不到这样的深度呢?一个乔姆斯基的递归陷阱不知道栽进去多少人,造成多少人在 “不是人话” 的现象上做无用功,绕了无数弯路。学界曾有多篇长篇大论,机械地套用乔氏层级体系,在自然语言是 context-free 还是 context-sensitive 的框框里争论不休,也有折衷的说法,诸如自然语言是 mildly sensitive,这些形而上的学究式争论,大多雾里看花,隔靴搔痒,不得要领,离语言事实甚远。白老师独创的 “毛毛虫” 论,形象地打破了这些条条框框。
白老师把乔氏层级体系研究中中出现的问题,总结为 “向外恐惧情结” 和 “向内求全情结”,可谓一针见血。关于向内求全情结,其表现比较清晰,白老师总结的各种克服这种情结的努力也好理解,以此说明毛毛虫是相当的“扁”也很到位。相对而言,对向外恐惧情结的理解,以及圈外现象的观察,就难一些。白老师举了“分别”所关联的配对问题,算是一例。还有其他什么圈外的现象需要穿越,值得更多的观察和讨论。我个人觉得这里有几点:一是,总体来说,有限状态圈外的自然语言现象其实并不多(所谓递归,几乎就是子虚乌有,最多不过是两三层循环的事儿,可以实现为有限状态机的 cascade 叠加即可);即便不穿越这层围墙,也无大碍。二是,圈外的现象如果想应对,可以作为 formalism 的特殊延伸(而不是乔姆斯基大院的层级扩展)或作为个别现象个别处理。白老师说:(FSA 实践中查询后条件的)“lookahead已经破了fsa的戒了,做得初一,就做得十五。现在不是什么能实现的问题,是允许用什么实现的问题,能实现的路径太多了,但是羊头和狗肉对不上。” 事实正是如此,理论家在那里争论围墙及其计算复杂性的困扰,而一个普通的工程师根本就没有这种羁绊和顾虑,只要你能阐述清楚你的要求,就会有可控复杂度的实现途径。迄今还没遇到跨不过去的坎儿。举两个必须超越 FSA formalism 的常见现象来看,发现做一些额外的特殊处理,其实是很简单的事儿,并不需要一下子提升到扩展院墙的“高度”,劳民伤财。第一个现象是汉语的重叠词现象(reduplication),这是一个汉语词法研究总结得很充分的现象,有 ABAB,AABB,ABB,AAB 之类的重叠范式。这类现象需要一个 unification 的机制。原 fsa 不支持 unification,但是在原 formalism 上加上这种对工程师易如反掌。第二个是搭配关系,包括可分离动词,包括 subcat 中对特定介词的词典要求。前者如“洗澡”,“洗一个痛快的澡”;后者如 deprive sb of sth 中对 of 的词典要求。这些东西要求词典化的搭配在句法中实现为变量的实体化,这样才能做好句法和词典的接口 。formalism 不支持,可是一个聪明的工程师很快就会提出解决方案。
白老师是严谨的:“羊头和狗肉对不上,能对上的是什么,要给个说法。就算是毛毛虫,也要有个毛毛虫说法。光说不立,立了不说,按说的做必死。这是商业手段。而言行一致的 formalism 是有的。这对于知识的管理和传承,会带来很大好处。” 这是对工程师暗度陈仓,挂羊头卖狗肉的批评。不过,很多时候也有些冤枉工程师,因为他们在 formalism 里夹进去的私货,他们自己可能根本就没觉得是一个什么值得在理论上说道的东西。一切都是自然而然的。
总之,自然语言的绝大部分,并不需要乔氏定义的很强的 formalism,因为这条毛毛虫足够的扁,而且没有想象的那么长。
白老师自己的总结是:‘如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。’ 此乃金玉良言,掷地有声。
洪诗人吟道:乔家大院住叶工,越进内室越挂龙。DL 寻衅今打洞,骑墙盘亘毛毛虫。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社