《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

乔氏 X 杠杠理论 以及各式树形图表达法 精选

已有 19333 次阅读 2013-6-11 07:38 |个人分类:立委科普|系统分类:教学心得| 乔氏层次句法理论

X-bar theory is not a good theory for NLP and phrase structure tree is not NLP-friendly. Dependency tree is much better but lacks node-level abstraction. Therefore the hybrid tree based on dependency structure but involving chunking level phrase structures is the better choice for parsing representation for NLP apps.


因为我常常提到乔姆斯基,不少朋友以为我是乔迷。其实对这位语言学超级大佬,我一贯是敬而远之,把他当菩萨小心供着,但绝不亲近。一辈子做 NLP,从来不用他的理论,最多是取其个别概念,体系上与这位开创现代语言学主流的泰山渐行渐远。虽然他有数学出身的背景,还是计算机编译理论的奠基人,它那套语言学学说对于自然语言实践不好用、不灵光,有时误导,甚至让人走火入魔。这话说起来就长了,打住。


我对他的自由主义知识分子的左派立场倒是更加欣赏,包括对美帝国主义的外交路线的批判和对西方媒体本质中丑陋一面的揭示。他被认为是美国最大的持不同政见者。他批判美国毫不留情,称美国为流氓国家。他对美国只有一个赞颂:就是言论自由,因为那是他和许多政府眼中刺头儿们能存在的根基。


说远了,回到乔老爷的语言学。


>>立委, Chomsky 的 x-bar theory是怎么回事儿?

乔氏层次句法理论。x 就是词,语言句法的起点(基本单位),x 上面一个 bar 就是带有可能 的内部补足语(internal complement,包括宾语)的结构 XG(譬如逻辑谓语, 语义内核的统率)

x 上面两道 bar 就是短语 XP(包括了可能的逻辑主语的短语,或者小句)。以此类推。


最多有两道杠杠,X (没有杠)/ XG (一道杠) / XP (两道杠) 是不同层次的动态语言单位


如果x是名 词 (wash),x bar 就是 noun group NG, 譬如 car wash:虽然是名词,却是里面有动宾结构的逻辑谓语;
x double bar 就是 noun phrase NP,譬如 John's car wash: John 是逻辑主语(叫 external argument)。


如果x是动词(wash),x bar 就是 verb group VG, 相当于传统语法用到的动词短语(包括动宾结构)。

x double bar 就是 小句,里面含有 external argument,即逻辑主语,如此下来动词杠杠与名词杠杠就同构了,于是离大同近了一步。



不过乔氏经典理论不是这样说的,它不要这么简单(上述动词杠的树表达是HPSG的),它创造了一个 IP (I double bar,I 指的是谓语动词中的 时而看得见 时而摸不着 但似乎能感觉得到的 Inflection 部分,时体之类的或明或暗的载体,作为一个小句的最高代表) 表达小句,然后里面叠床架屋。为了结构而结构,跟王尔德的唯美主义(beauty for beauty's sake)有一拼。





乔老爷追求语言共性(language universals)和类似数学公式的符号表达法入魔

理解他先必须接受他的一系列 assumptions,然后雾里看花一样地看到语言的世界大同


他那套短语结构句法树(phrase structure tree,见上图)既不精简也不好用,离关系语义和逻辑更远,比起依从关系结构树(dependentcy tree,见下图)差远了。不少自然语言学者用了他的形式化结构树以后,在使用前还不得不转换成依从关系树。这是何苦。 不幸的是,NLP 中最有影响的的人工标注的句法树库在宾大,叫 Penn Tree Bank,用的就是短语结构树。作为实际上的业界标准,Penn Tree Bank 迫使很多 parser 研究者不得不与这个难缠的短语结构树打交道。NLP 历史上尽出这些不好用但又不得不用的资源,另一个例子就是心理学家编制的对于NLP一点也不友好的 WordNet。



依从关系树长于揭示句法的或者逻辑的关系语义(Subject,Object,Complement,Modifier,Adverbial 等等),简明易懂,但缺点是在排除了中间层的 X 杠 non-terminal 节点 (XP or XG) 以后,句型失去了节点的抽象度。


为了弥补上述缺陷,下图是我们改良版的依从关系句法树,在chunking(短语抱团)阶段结合了一点儿的短语结构的表达法(如NP,PP 等),也可以算是 hybrid tree 吧:




For more on X-bar theory, read:

http://en.wikipedia.org/wiki/X-bar_theory


【相关篇什】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

【科普小品:文法里的父子原则】 

Dad, can you explain Chomsky's X-bar Theory to me?

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-698434.html

上一篇:先有鸡还是先有蛋?甜甜根据中国历史文化知识回答说当然是先有蛋
下一篇:安全的思考,兼回应网友的帖子
收藏 IP: 192.168.0.*| 热度|

13 武夷山 祝贤明 曹聪 李宇斌 唐常杰 徐大彬 庄世宇 蒋迅 陈辉 张能立 rosejump bridgeneer icgwang

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 18:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部