|||
哪些概念物化为语词,哪些概念永远皮之不存,像一个飘荡的幽灵?
(《知网》读书笔记)
我: 语义深似海,常识底为最。知网小世界,董老大智慧。
知识就是一个灰色的箱子,在模型化的过程是黑化还是白化的选择。合成词里面有很多灰色的东西,看上去半透明。完全透明了,就没有进入词典的理由,何况人脑本来就是这么块小豆腐(电脑不同,为图省事可以选择把常见的透明现象也装进去)。完全不透明那就是“真”成语,“翘辫子”之类。翘辫子的人辫子根本就没翘,甚至根本就没有辫子。词源上,翘辫子有一个黑箱化的过程在,但现时看,就是一个黑箱子,因此进入了强盗绑架的词典(memory)。如何绑架是横竖有理,内部自洽、好用就好。卖艺绑架给谋生,当属此类。
做一个本体论模型,要做到逻辑自洽而完备,肯定有不少取舍。抓大放小是必须的。
白: 所有权的变化,对于整个服务类的职业都不存在,无论是擦皮鞋、理发、表演还是银行柜台数钱。但都是卖服务。卖艺只是卖服务的特例,不应该跟是否谋生绑在一起。否则又涉及到专职兼职走穴的问题。卖身也是。买保险,也没有所有权转移。买的是一种或然事件发生情形下获得赔偿/补偿的权利。
我:
义素定义语词的词典,在前计算时代有人做过,【朗曼词典】附录给了一个千级别的基础词汇表。然后整本词典的所有词条全部用这个核心词汇表中的词来定义,也见过里面一些捉襟见肘的定义,但大体思路是一样的。到了NLP用,这个工作需要形式化,必须在最小义素集和关系集的基础上,经过有限的叠加,来定义英语和汉语整个词汇表中词条的每一个义项。这个挑战性可想而知。应该是经过反复斟酌确定总体路线,然后做各种组合试验,权衡不同方案的利弊,最后确定的义素集合和关系集合,及其叠加组合限制。这样出来的概念体系,可以给每一个语词义项一个独一无二的定义,这是达到自洽的最基本条件。这个独一无二就是各种义素的关系组合的在某一点有异,由此区别了不同的哪怕是很接近的义项。感觉好奇的是,这个关系组合的定义空间,想来是一个相对稀疏的大屋子,每个义项星星点点占据其中一个房间。而那些理论上存在的空屋子里面都是什么概念呢?一种是语言甲实现为语词,因此住进去了的房间,而对于语言乙,那就是空房间(gap)。另一种是逻辑上不存在的概念,这个对于一个设计精良的概念体系,应该尽量避免,偶然大概也免不了有一些。
白:
有些定义不算是定义,比如若将“梭哈”定义成“一种多人………游戏”,只是归类,并没有与其他同类游戏相区别。汉语“小人”算一个空房间?
我:
第三种最令人好奇。这就是普世人类都决定不进驻那间房子。就是说一个合理的概念,就是不实现为语词,全世界人民都自觉地绕过它去。要是研究这个空房间的组成及其背后不进入语言的动因,写一篇语言学和逻辑学的博士论文,应该是一个很有意思的研究,或许对我们理解人类的认知机制有启示。这里面又分两种:一种是迄今不进驻,但将来进驻的可能还在。另一种是难以想象人类会对那个房间或概念感兴趣,就是概念网络 gaps 中 taboo 一样的所在,这个会很有意思的。
反过来看这个问题就是,这个屋子足够大了,已经把汉语、英语的几乎所有的已知词汇都根据义项各得其所地送进了自己的房间,但是大屋子还不够大。它漏掉一些应该开单间但是现在勉强送进某个不合适的房间,与 chemistry 不相谐的“被”同义项的伙伴们混居。对于这些进错了房间的语词义项,HowNet 诞生这几十年肯定在不断重新调整。但是无论怎样调整,由于任何模型的离散本性与概念的连续现实之间的矛盾,总不会做到在在妥帖,很多时候的义素选择是趋利避害的考量,包括MT语用的考量在起作用。
最后就是,到底有多少是真地由于体系的不足导致的住房不适(房子本该设计得更大一点),而不仅仅是利弊考量下的权衡选择。
【相关】
董老师最新博客:《语义和常识》
HowNet《知网》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 21:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社