所有语言都有这种子类(subcat)。细说起来有两类句型分类:一类是逻辑上的,一类是语言的。
日期: 02/23/2012 19:14:02
逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个人的实体(assuming 动物以及其他实体不能哭笑)作为施事 argument 来表达 “谁(1)哭了笑了”,所谓不及物谓词。对“人”的要求,是所谓语义上的 selection restriction
“爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),前者是人,后者没什么限制,表达 “谁(1) 爱/恨 谁/什么(2)了“。
还有其他 subcats。“给/赠与” 这样的谓词,需要三个 arguments,表达 “谁(1) 把 什么(2) 给/赠与 谁(3)了”,(1)和(3)是人或者机构实体,2 通常是物件。
“认为/声明” 这样的谓词,需要两个 arguments,其中一个是施事实体,表达 “谁(1)的认为/声明”,要求的是人或者机构,第二个 argument 要求一个 statement (嵌套的谓词结构,相当于语言中的宾语子句),表达 “认为/声明的内容(2)”。
这种逻辑上的谓词子类的区分是语言通用的(universal),因为它的根基是概念及其意义的完整性:谓词加上arguments 构成作为 statement 语义核心(所谓 argument structure),核心外围才是时间、地点、条件等附加性语义细节。
以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns(句型)。到了语言这个层面,辞典中一个动词的句型子类需要标出以下的subcategorization 的信息(及物 vt / 不及物 vi 只是其简化标识,牛津词典曾经用20多个子类标注每个词条的subcats): 这些 arguments 要求的语言形式(名词短语、介词短语还是还是动词短语?名词是主格还是宾格?介词短语要的是什么介词?每个 argument 所处的位置,语序自由还是固定,等等)。
与逻辑层不一样,subcat 的句型,是针对各个语言的,譬如一个语言用名词或者词尾(如宾格词尾)表达的 argument,到另一个语言可能要借助介词。如:You should serve us (宾格)/ 你要为我们服务(借助介词“为”)。
正是词典中给出的这种子类信息的标注决定一个词可能的潜在句型用法。因此,subcat 信息的完备直接决定了一个parser的质量,是语言研究中非常关键的预示信息。逻辑和语义虽然是人类共同的,subcat 信息各个语言却不同,后者是对前者的语言学映射。 分别以英语和汉语为例,下面把上述逻辑层的示例化为语言层的subcat信息,来揭示对语言形式的要求及其句型的不同:
英语的 cry 是不及物动词(vi),具体说来其 subcat 信息如下:cry 需要一个名词短语(NP)做主语,词序上这个主语通常位于 cry 的前面(词序也是语言形式),如果该名词短语是代词,则需要使用主格形式。
汉语的 “哭”的 subcat 信息与英语类似,也需要一个名词短语做主语,词序上这个主语通常位于 cry 的前面,但是汉语的主语代词没有“格”的形式要求,因为汉语没有格这个语法范畴。
英语的 love 是及物动词(vt),它连接主语和宾语,及物动词的subcat 信息涵盖了主动语态的句型和被动语态的句型两大类。前者的基本句型是主谓宾(SVO)结构:即名词短语位于 love 的前面做主语(如果主语是代词,则需要主格 如 he/she),位于 love 的后面的名词短语做宾语(如果是代词,则要求宾格 如 him/her):He loves her. 这是英语及物动词主动句型的要求。同样的动词还有一系列被动句型的 subcat 要求,除了 love 要转换成被动语态形式的动词以外(如 is loved / has been loved/...), 还要求使用介词 by 来引出原主动语态的主语(介词短语PP引出的逻辑主语),语法主语却变成了逻辑宾语,这就是我么所熟知的主动举行到被动句型的英语转换式:He loves her --> She is loved by him.
汉语的 “爱” 是及物动词,它也连接主语和宾语,但是 subcat 所要求的语言形式与英语不同。基本句型“主谓宾”结构,词序虽然与英语相同,但没有代词主格宾格的区分:他 爱 她【爱得很久了】。汉语及物动词第二个句型是所谓“把字句”,要求在动词前主语后,用介词“把”引出逻辑宾语:他 把 她 爱【得很久了】 。相对于英语被动语态句型的是汉语及物动词的所谓“被字句”:她 被 (他) 爱 【得很久了】。
下面说明从简,懂英语和汉语的人都很熟悉这些 subcat 句型之间的转换,请注意英语汉语之间的异同:
Subcat patterns for the ditransitive verb “give”:(1) NP1 + give + NP2 + NP3 (e.g. She gives him a hug); (2) NP1 + give + NP3 + PP(to+NP2): She gives a hug to him; (3) NP2 + give[PASSIVE] + NP3 + PP(by+NP1): He is given a hug (by her); (4) NP3 + give[PASSIVE]+PP(to+NP2) + PP(by+NP1): A hug is given to him (by her).
汉语的动词 “给” 的双宾语结构的句型转换如下:(1)基本句型:他 给了 她 一个拥抱;(2)把字句:他 把 一个拥抱 给了 她;(3)被字句: 一个拥抱 (被 他) 给了 她。
Subcat pattern for the verb “think”:(1) NP + think + that-clause (e.g. She thinks [that she loves him]); (2) "that" is allowed to be omitted, hence: She thinks [she loves him].
汉语的动词 “认为” 的句型与英语类似,但是没有从句引导词 that:他 认为 【他 爱 她】
逻辑到语言的mapping不是简单的对应,譬如,在逻辑上,语言中的 like 和 please 基本是一个概念,这个概念是及物谓词,需要两个 arguments,可是在语言中,这两个arguments 的指向由于不同的动词选择,可以正好相反:
I like iPod
等价于
iPod pleases me. (这种说法英语不常见,但是其他欧洲语言常见)
两种不同的语言表达方式,说的都是人和一个物体的关系,是那个物体带给人心理上的愉悦感受。
对于学习语言,熟悉这些句型信息也非常有用。令人惊异的是,很多人学了多年英语居然没有对动词句型的subcat 的系统认识,语言实践没有上升到语言学理论的高度。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类与牛津略有不同,分得更细),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。
一个词(不仅是动词,还包括形容词和名词)经常分成 n 个义项,每个义项下的 subcat 分类标注往往不同,回去翻翻词典就看到了。
拉拉杂杂,今天就先说到这里。随笔写来,条理性不够,先凑合看吧。(也不能写得太好,太好了若干年后怕有现代红卫兵质疑有代笔,受网络大字报的轰炸,不值。)
【置顶:立委科学网博客NLP博文一览(定期更新版)】