|||
X-bar theory is not a good theory for NLP and phrase structure tree is not NLP-friendly. Dependency tree is much better but lacks node-level abstraction. Therefore the hybrid tree based on dependency structure but involving chunking level phrase structures is the better choice for parsing representation for NLP apps.
因为我常常提到乔姆斯基,不少朋友以为我是乔迷。其实对这位语言学超级大佬,我一贯是敬而远之,把他当菩萨小心供着,但绝不亲近。一辈子做 NLP,从来不用他的理论,最多是取其个别概念,体系上与这位开创现代语言学主流的泰山渐行渐远。虽然他有数学出身的背景,还是计算机编译理论的奠基人,它那套语言学学说对于自然语言实践不好用、不灵光,有时误导,甚至让人走火入魔。这话说起来就长了,打住。
我对他的自由主义知识分子的左派立场倒是更加欣赏,包括对美帝国主义的外交路线的批判和对西方媒体本质中丑陋一面的揭示。他被认为是美国最大的持不同政见者。他批判美国毫不留情,称美国为流氓国家。他对美国只有一个赞颂:就是言论自由,因为那是他和许多政府眼中刺头儿们能存在的根基。
说远了,回到乔老爷的语言学。
>>立委, Chomsky 的 x-bar theory是怎么回事儿?
乔氏层次句法理论。x 就是词,语言句法的起点(基本单位),x 上面一个 bar 就是带有可能 的内部补足语(internal complement,包括宾语)的结构 XG(譬如逻辑谓语, 语义内核的统率)
x 上面两道 bar 就是短语 XP(包括了可能的逻辑主语的短语,或者小句)。以此类推。
最多有两道杠杠,X (没有杠)/ XG (一道杠) / XP (两道杠) 是不同层次的动态语言单位
如果x是动词(wash),x bar 就是 verb group VG, 相当于传统语法用到的动词短语(包括动宾结构)。
x double bar 就是 小句,里面含有 external argument,即逻辑主语,如此下来动词杠杠与名词杠杠就同构了,于是离大同近了一步。
理解他先必须接受他的一系列 assumptions,然后雾里看花一样地看到语言的世界大同
他那套短语结构句法树(phrase structure tree,见上图)既不精简也不好用,离关系语义和逻辑更远,比起依从关系结构树(dependentcy tree,见下图)差远了。不少自然语言学者用了他的形式化结构树以后,在使用前还不得不转换成依从关系树。这是何苦。 不幸的是,NLP 中最有影响的的人工标注的句法树库在宾大,叫 Penn Tree Bank,用的就是短语结构树。作为实际上的业界标准,Penn Tree Bank 迫使很多 parser 研究者不得不与这个难缠的短语结构树打交道。NLP 历史上尽出这些不好用但又不得不用的资源,另一个例子就是心理学家编制的对于NLP一点也不友好的 WordNet。
依从关系树长于揭示句法的或者逻辑的关系语义(Subject,Object,Complement,Modifier,Adverbial 等等),简明易懂,但缺点是在排除了中间层的 X 杠 non-terminal 节点 (XP or XG) 以后,句型失去了节点的抽象度。
为了弥补上述缺陷,下图是我们改良版的依从关系句法树,在chunking(短语抱团)阶段结合了一点儿的短语结构的表达法(如NP,PP 等),也可以算是 hybrid tree 吧:
For more on X-bar theory, read:
http://en.wikipedia.org/wiki/X-bar_theory【相关篇什】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 10:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社