《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【骨灰级语言学家开讲段子小品】 精选

已有 6322 次阅读 2017-2-26 03:26 |个人分类:立委科普|系统分类:科普集锦| 歧义, 语言学, 段子

走在路上瞎琢磨,突然脑中冒出句俏皮话的段子:

天下无贼 贼有看头
why
好看啊
我是问 无贼 怎么有看头呢

白老师曰 相声的段子就是这么来的。

马:
"贼有看头",估计有人看不懂这句
想起一个段子。 一个人去东北出差,问东北人宾馆是否好找,答曰:东北宾馆贼多。于是吓得不敢去了。

哈 马老师这个更好。

今天有闲,侃侃这个即兴段子的语言学。这样的对话在语言学家眼中有些什么看点呢?

从语义计算的角度,并不是下述每一个点都那么容易形式化、模型化,但是人机对话要想逼近人类对话的高度,这些方方面面迟早要被 addressed。

看点 1. 专名与字面语义的纠缠:《天下无贼》

自从摈弃了上世纪30-40(?)年代流行过的书名号(一种括号)和专名号(下划直线或波浪线:据说后来嫌排版麻烦,就逐渐舍弃了)以后,这个纠缠就很 annoying。这是不同层次的纠缠,但没留下形式痕迹。通常的做法是指望有一部专名大辞典,搜罗进去的遵从 hidden ambiguity 的休眠原则。于是,“天下无贼”被词典识别为默认的电影专名,其内部的语义结构(小句结构)则被休眠。

2. 两个贼的纠缠

自然语言有一个广为人知的属于 discourse 范畴的 heuristic,叫做 one sense per token,说的是,一个token在同一个discourse里面重复出现,那么这个token的所指是相同的。有数据证明,这个 heuristic 的准确率非常高。于是,两个“贼”因为这个 heuristic,就埋下了一条伏线:同指(coreference)的 heuristic 一线与不同指的 heuristic 例外的一线。我们知道,凡 heuristic 一律有例外:再高的精确度,也有不灵光的时候。

其实,这个例外也有人研究过,例外里面还是有规则。规则就是,如果一个token隐藏在一个成语(计算语言学所谓成语包括术语、专名和其他的合成词)内部,那么这个token就不(必)遵循 one sense per token 的原则。

3. 贼的内部歧义

贼的标配定义就是 blah blah 的【human】。不知何时,好像是早先来自我们东北兄弟,开始用“贼”表达程度(副词),感觉贼形象、贼酷。这个用法显得别致、匪气、接地气,进而渐次推广到全国,尤其在网络用语里面。于是,贼的 hidden ambiguity 出现了,(i)默认的名词【human】和(ii) 程度副词。

4. “vt头”的语言学

(有).... 看头、吃头、玩头

这事儿咱从头说起。汉语是孤立语,一般认为没有欧洲语言的形态(词尾等),也没有严格意义的前缀后缀。如果n个词素(morphemes)组合成了一个词典单位,通常的说法就是合成词(compounding),而不是有明显主干枝叶之分的派生词(derivatives)。但语言是发展的,从古汉语甚至合成词都极少(这是“孤立语”的本义,孤立语的典型和极致是没有 morphology的)、一切都是 syntax,逐步发展到现代汉语,汉语的孤立特性在明显降低。有些所谓类语缀(quasi-affix)的语言学材料开始出现。换句话说,汉语有朝着印欧语言的方向演变的蛛丝马迹。

“头”就是一例。

“看头”,不是句法的动宾:看(了个啥)头
也不是通常的合成词的定中套路:(所)看(的)头
而是一个特别的后缀,其派生词的构词法与句法的接口,可以这样来做形式化的描述(by the way 我的博士论文专门有一节论汉语的类语缀现象):

NP 有/没有 Vt-头 ==》有/没有 VP{Vt NP} 的【value】,VP {Vt NP} 结构自然是典型的动宾式动词短语。

细究的话,这里面还有“学问”:

其一,Vt 不仅要求及物动词,而且要求是单语素(说白了就是一个汉字),两个汉字可能吗?也许由于灰色过渡的存在,可以找到个别的例子,但感觉不是很多:

? 这本书有学习头吗
? 这个课题没有研究头。
* 这个曲子有弹奏头。

到了二字以上,那就绝对违法了。(MD 想一个三字的及物动词还真不容易:汉语的双音化太突出了。算了,不想了。)

其二,这个搭配句式中的 有/没有 不是 “拥有” 的“有” 而是“存在”的“有”,相当于英语的 (there) be or (there) exist。因此这个 V  的唯一的 arg 前置到主语的位置和后置到宾语的位置,语义关系不变:

这本书有看头 ==》
(i)有看这本书的价值
(ii)看这本书的价值有。
(后者头重脚轻,稍微有些不顺,但句法上是可以自由语序的, cf:

(的确)存在看这本书的【价值】
看这本书的【价值】(的确)存在。

其他看点还有,譬如 “why” 和 “怎么”(字面意义是 how)的逻辑语义其实是一样的,问的是【原因】而不是【方式】。累了。歇了。只是记住一点:
自然语言里面的名堂,比我们每天说话的人想象的要丰富很多。希望年轻的 NLP 后学不要小看这门语言的学问。至于老人,那就不用指望了。傲慢与偏见,爱咋咋。


【相关】

【NLP主流的傲慢与偏见】

【NLP主流的反思:Church - 钟摆摆得太远(1)】

【Church - 钟摆摆得太远(5):现状与结论】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录





https://blog.sciencenet.cn/blog-362400-1036106.html

上一篇:【救人一亿,是怎样的功德?】
下一篇:【立委兄:加拿大西部山水游 (8/16)】
收藏 IP: 192.168.0.*| 热度|

7 武夷山 李楠 李泳 xlsd bridgeneer biofans ericmapes

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 19:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部