|||
李:
画了前面的图回头仔细一看才发现,这个例句是擦边的“交叉”:
如果DG(Dependency Grammar)揉进了浅层的短语结构及其边界,先做了合成词“学习 成绩”,那么把“他”与合成词内部的“学习”连接成主谓关系,是交叉。但是如果不引入短语结构,一切节点都是终极节点,实行彻底的原汁原味的依存关系(DG)表达,那么“他”作为主语连接给“学习”以及“学习”作为修饰语连接给“成绩”,并没有真正交叉,只是层次(configuration)显得乱了。但是DG的最大特点(或缺点)就是打破层次,只论二元。多年来我们在DG中部分引入 PHG (Phrase Structure Grammar) 短语结构表达,也是为了弥补这个缺陷。
我要说的是,这不是DG最典型的交叉关系图。不知道有没有更好的交叉而且语言逻辑仍然合理的案例。以前一直以为从逻辑上看,真正的交叉是站不住的,会引起语义的混乱。
白:
这又和“学习成绩”是在词法层面的论断矛盾了。二元关系这竿子杵到底,似乎就不管你什么层面了。“这牛吹得有点儿大”算不算交叉?
李:
盘点一下关涉到的二元关系:
吹-牛
吹-得
得-大
有点儿-大
这-牛
白:
牛-大
牛有俩爹。
李:
从 “牛” 到 “大”,从 “牛” 到 “吹”,起点同,终点不同,所以不算交叉。
n年前,刘倬老师画过图,说只有交叉站不住,不允许。其余的情形(见下图)全部是可能的,说的就是依存。
现在清楚的是,逻辑语义依存可以一个儿子多个老子,甚至互为父子。可以跨越层次,因此是图不是树。但是真正的交叉好像还是不被允许的。逻辑上,依存交叉是思维混乱。
白:
“辫子是谁给你梳歪了?” 试试看。
李:
梳-辫子
梳-歪
谁-梳
给你-梳
给-你
?是-谁(这个强调词可能进不了逻辑语义图,如果硬要进入,就挂在被强调的“谁”上)
还有哪些二元关系?
白:
辫子-歪
你-辫子
交叉了吗?
我觉得首先思维不混乱,再看看交叉了没有。
李:
没有交叉,貌似并不违反刘老师当年定下的天条。
白:
我提到的两个不算?如果讲的是“逻辑语义”,我认为要算。除非承认过继和挪移。
辫子-歪,你-辫子
李:
【辫子-歪】 与 【梳-了】 是交叉了。【辫子-歪】与【你-辫子】并不交叉。不算。因为其中一个端点重合。端点重合的,与内嵌套类似,不是严格意义的交叉。这么多的二元关系,勉强找到一对貌似违背了不交叉原则,而且这一对涉及小词“了”。涉及小词的,原则上在逻辑语义图里面没有地位,不应该进入关系。这样看来,实词概念逻辑语义不允许交叉,是可以自圆其说的。
白:
在我这里小词都有地位。
李:
小词只在句法层面有意义,进入(逻辑)语义,小词不过是给自己的主子添加了“色彩” features,并没有语义关系可言。
白:
你-辫子 与 谁-梳 交叉了,都不是小词
李:
你-辫子 和 谁-梳,的确交叉得太彰显了,掩盖不了 <:]
可能辫子根本就不该找主儿, =)
白:
“腿是谁给你打断的”,腿 也不该找主儿?
李:
这个交叉不交叉原则,可以反过来看。也许可以找到一些案例,的确产生交叉了。但是我们不能允许语句中的概念漫无边际地乱谈恋爱,导致群交的杂乱场面,显然不好。所以,必然会有某个原则在那里起规约作用。也许有某个“不允许交叉”的弱版本需要挖掘和表述。
白:
残坑挪移,可复用萝卜归栈。
技术上当然有办法。
李:
两个人要私奔,天王老子也挡不住。
白:
比如刚才说的“你-辫子”。“你”就属于可复用的萝卜。
李:
二元关系不理别人就是了,不就是一个链接吗。技术上不是问题。管它叫树还是叫图。探讨的是,有没有一个有效的原则在,它合理有效地压缩了乱交。
白:
“辫子-歪”,歪就留下了残坑,被挪移到“梳”的位置。
我认为,残坑的处理和萝卜的复用是天经地义的,是NLP的应有之义。
李:
人心不古啊。现代化摧毁了周礼。是否要克己复礼?现如今,同性都可以结婚,禁区早被突破。
白:
乱交不可能,有辖域的约束,还有subcat的约束。辖域的约束,是指必须挪移到主子的位置。subcat的约束是指必须相谐。在主子的位置看如果没有交叉,就是OK的。
李:
对。
【谁1 给谁2 梳辫子】
【你-辫子】 和 【谁2-梳】 的交叉,是因为“谁2”与“梳”勾搭上以后,把给自己找主人的要求带给了“梳(辫子)”。
白:
所以,我们昨天讲的挪移,是在很严肃、很有效地处理交叉问题,很审慎地剥离表面上貌似交叉、学理上情有可原、技术上完全可控的现象,把它们纳入正轨。绝不是鼓励任意交叉绝不是鼓励任意交叉。
李:
服。
白:
而小词纳入实质性二元关系,一点都不影响上述对交叉的控制手段,但“词负载结构”原则则被推至极致。
李:
不管小词纳入还是不纳入,小词的确没有真正的语义地位。首先,小词各个语言都不同,而语义原则上是人类共同的。在深度分析的结果图上,不同语言的色彩应该已经褪掉。一切图谱理应是实体概念之间的关系。小词负载结构最多只能算是句法层面通向语义的桥梁。过河拆桥不拆桥,桥都不登大雅之堂。大堂里面都是args或mods,围着众神(谓词)跳舞。
白:
这个难以苟同。首先,格、时态、命题连接词、逻辑量词、摹状词都是语义里面必须有的组成部分,各个语言只不过用不同的手段来达到这些组成部分而已,如果碰巧某个语言里小词做了这件事,在这个语言里小词就负载了相应的结构,不描述是不对的。过河拆桥,是一种逻辑等价的技术处理,桥是客观存在的。
李:
总结一下不交叉原则:不交叉原则适用范围要从动态交往中看,而不是去除时间维度,把不同时期的交往压缩到一个平面去看。在没有时间维度的静态平面上看上去的违反不交叉原则的二元组关系,放在时间动态的交往上看,就没有违反原则。
白:
挪移就是位置随时间变化,随分析进程变化。而有些时候,桥是拆不了的。比如“卖盐的”。这个human就负载在“的”上,升格为实词。
李:
[human-action] --> [human],不太好操作。当然,除了[human]以外,貌似其他实体很少出现在这里。
白:
N+-->N,方便得紧,而且和形容词名词化一脉相承:“行个方便”。的字结构,饱和了以后,具有形容词性,形容词能升格为名词,的字结构就能。二者是同一机制。
李:
好像,的字结构可以是主语实体,也可以是宾语实体,后者就超出了[human]:
卖电脑的最新生产的是智能手机。
==卖电脑的[human]最新生产的[product]是智能手机。
白:
那是因为“生产”的两个坑,一个human,被“买电脑的”先占据了,剩下一个“product”坑,被第二个的字结构提取出来,再升格为萝卜。
李:
然后萝卜带上了标配本体?
白:
这整套操作,都在我们提供的机制内完成。
李:
这个标配的设置,不太好处理,虽然硬做总是可以做的。
白:
的字结构是我整个理论体系最早的切入点,不说烂熟于胸,也是胸有成竹的,至少是最不怕挑战的一块。
李:
呵 的字是中文的万恶之首。不说恨不得千刀万剐它,至少也是恨得咬牙切齿。
白:
既然做NLP,就得拿万恶之首开刀
李:
它还有变种:的|地|得|滴|哒|d|de|ㄉ|之
对了,粤语里面还有,那字怎么拼都忘了,但见到认识,口旁加既。
白:
底
李:
对,上世纪30年代流行
白硕:
の
日语借来的
李:
相比之下,茴香豆的茴五种写法算个球,李白比孔乙己可学问多了。宝林大师说过,满肚子下水全是学问,不能碰,一碰就往外冒。
白:
妈妈威胁孩子“等你爸爸回来的”那个“的”,在有些方言里似有与普通助词“的”分化的情况,语音形式都不同。
李:
听不懂这个。
白:
潍坊话发音类似“着”。
大家可以内省一下自己的方言是分是合。
@wei 就是,其他语境下的“的”是一种语音形式,这个语境下的“的”是另一种语音形式,简直可以认为是两个词,在普通话里合并了。
【相关】
《语义计算沙龙:基本短语是浅层和深层parsing的重要接口》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 02:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社