《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【李白王89:模糊语义与真假歧义,兼论PSG与DG】

已有 1859 次阅读 2018-1-29 04:54 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 歧义, 逻辑语义

李:
里面关涉所有的词法现象,包括 open compounding (合成词),重叠(reduplication)etc,morphology is a mini-syntax

白:
这是西方语言学者的思维惯性所致,把形态变化外化了

李:
但 词法 与 lexicon 还是不相称的吧,前者是规律 后者是库。前者是“法”后者是“典”。

在语言学教科书里面,词法是一个动态模块,词典是一个静态模块(资源)。当然到了专家词典,那是NLP里面的创新,超越了传统的语言学界定。

白:
法+典
比如外界常说,汉语的morphology不发达,狭义理解形态变化不发达是对的,词法不发达就说不通了。至少我们构词法、离合词都算是发达的

李:
这里面其实还是有一些说法的。开放合成词 open compounding 是超出词典的构词法,占据了汉语构词法的大部。语言学上 通常认为这个东西处在词法句法的中间地带,不像词的词尾形态变化(inflection)和 语缀派生词(derivation)那样包裹在词法内部。因此,说汉语morphology贫乏也不无道理。如果从汉语的语言历史来看,就更是如此。

其实 无论从理论概念上 还是实践中,把词典绑架不了的所谓合成词这种中间地带的现象 看成是句法的初级阶段,而不是看成是词法,是合适的。(至于词典可以枚举的合成词,无论是黑箱子还是半透明,那都不是事儿,反正是围在词典的围墙内【离合词除外,需要有特殊的与句法接口的机制】)
理由如下:

1. open compounding 与句法的组合规律 总体上有一体性

2. 语素(lets say,bar 0)组合成合成词(bar 1),合成词组合成(初级)词组(group, bar 2),词组组合成(基本)短语(base XP,bar 3),基本短语组合成嵌套短语(bar 3.x),嵌套短语组合成谓语(VP, bar 4),谓语与主语组合成子句(clause,bar 5)

这一切其实都是一个句法单位(我的导师刘先生称之为动态句素,非常精辟)越来越大的过程。

在 bar 1 与 bar>1 中切一刀,前者叫 morphology 后者叫 syntax,其实有相当的任意性。主要依据是发现 open compounding 与词典枚举的 compounds 在句法进一步组合过程中,基本上可以同等对待,而且词典枚举不枚举也是有相当的任意性的。

这其实就是 structural configuration(x-bar concept) 利用离散值在逼近嵌套(或递归)句法组合的过程中的归类角度而已。

上面的离散值分为 5 个 bars,比通常的 x-bar theory 细一点,换一个角度去抽象或 generalize, 也可以分为3层:词,短语,分句。也可以分为四层:词,词组,短语,分句。总之,既然这些分类具有任意性,而层层组合又具有一体性,那么把合成词组合排在句法里面垫底,是合理的。

今天还想到一个与此相关的句法界的老问题:说的是 有一种结构歧义 普遍存在 但一般也不影响交流 说者是模模糊糊说 听者是模模糊糊听 只是遇到较真的人 或者说段子抠字眼的人 才会把歧义凸显出来说事儿,多数人不较这个真。

说的是修饰语所修饰的句素的范围歧义:mod1 mod2 H,到底是 [mod1 [mod2 H]] 还是 [[mod1 mod2] H]? 逻辑语义上,这是结构歧义无疑,对应了不同的解读和至少是细微的语义差别,但实际交流中,who cares

有意思的是,by default 乔姆斯基短语结构分析法基本是第一种结构分析,mod1 不是修饰 H,而是修饰 【mod2 H】这个group;与此对照,by default,依存文法采用的是中心词分析法,说的是第二种解读,mod1 修饰的是 H,mod 2 也修饰的是 H

对于这种普遍存在的结构歧义,两种解读都可以找到各自的语言事实依据(XOR),也都有更多的语言事实支持这种“真歧义”,但这个真歧义多数人不介意而已。

提出这一点是想说:1. 这种歧义在多数交流和落地场合 可以打马虎眼 不必认真对待;2. DG 和 PSG 默认出来的结构在这个普遍现象中是相左的,不等价,两个表达法互相转换的时候,需要注意这一点。

wang:
学习了

白:
靠H代表,才能统一。

李:
h 的代表性与人民代表类似。说是代表了人民吧,好像也不对,人民对他通常无感,他对人民也不负责,说不能代表吧 法理上的确是代表。还是语言共同体聪明:糊里糊涂说 糊里糊涂听。邓小平理论就是 不争论。语言与逻辑的分野 在这里表现最充分。语言使用中从来没有感觉出那么多的逻辑歧义。交流绝大多数时候真滴就是一笔糊涂账 大家还都基本认账 只有偶然遇到什么特殊情形 才较真起来。特殊情形包括 说段子。也包括 打官司。因此法律合同与口语相差甚远 那是把所有人当贼防 不得不采取的表达方式。

王:
说得好!

白:
说something是可以糊涂的,没问题,太正确了。说which one是可以糊涂的,有点难。mod1是形容词-副词兼类,mod2是只能作定语的成分时,存在副词优先的现象。

“好漂亮的花”不是【好 【漂亮的 花】】而是【【【好 漂亮】的】花】

王:
H就是公司的法人代表。一个公司总得有个头H(Head),来代表公司。通常情况下,基本上H就代表公司出来说话,在该出面的时候,能承接的很好,能保证以企业级为单位的事务运转,简洁而高效。--这个时候H就是代表很好。但他完全代表公司的全部数据面吗?不可能,也不需要,只要能有这个H牵头,且能保证各层结构有序运转就好。员工大众需要有这样个代表,企业上头管理部门,也需要这样一个代表,而这种衔接,就是最经济的。语言学,想必也类似。

在H完全代表不了的,情况下,可能再需要配一个或几个副手,一起代表就基本能把问题解决了。H有时信息不自足的情况下的一种选择。比如,介宾情况。介也许就是介绍主人 的介绍人吧。

@白硕 照白老师这样一说,感觉还是该分开的情况还是得分开,细节工作看来还省略不了。只有那些不必分开或不值得费功的情况,特别“左右搭接两相宜“的才不必细致分开。

李:
顺着前两天的思路,一个观察:有的歧义不重要,介于真歧义伪歧义之间。逻辑上的真歧义,语用上的伪歧义(因为人普遍不 care,因此也没必要要求电脑去 care,怎么着都可以)。譬如:“昨天-发布-了”,在 PSG 中,下列的结构歧义:

((昨天发布)了) vs (昨天(发布 了))

到了 DG 就没有歧义了(昨天(发布)了),反倒省心。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录




http://blog.sciencenet.cn/blog-362400-1097349.html

上一篇:【朝华点滴:百万架构图幻灯片的演进】
下一篇:【立委随笔:猫论,兼论AI福兮祸兮】

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-11-16 09:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部