李: 白老师的格框语义算法,算是怎样的一个项目啊?探索研究,还是软件工程?似乎是后者。我觉得好难啊。这个感觉与当年(20多年前)董振东老师开始酝酿 HowNet 跟我谈他的构思的时候,感觉很类似。一个是觉得太难,另外觉得特崇拜。因为自己是门都进不去的。董老师居然几十年来持之以恒,发展至今。真是令人心服。
1988左右在高立公司做MT开发的时候,与董老师有半年多时间在一起,有很多交流。
白: 我很不情愿被拿来跟董老师比。董老师是在做事业,我是在玩游戏。
李: 感觉是类似的,语义是个坑,敢跳进去的都值得佩服,无论是玩票还是专业。绕开句法的纯语义方法比句法为主语义为辅的方法,大体说来,复杂度高出一个量级,不是不可能,而是很困难。
白: 我不会去学术界抢他们饭碗的,工程、互联网打法和资本市场,我相对更熟悉。
李: 学术界的语义,不提也罢。严格说,董老师的语义路线其实也不在主流圈内,他就是凭着信念和自信去构筑一个知识框架,附加一些工具。工程上第三方用起来并不容易。
Fillmore 的 FrameNet 算是学界的一个标杆,可那是一条得不偿失的路线,地位在语用和语义之间,不如语义格框简明,又不能直接达到语用,两边不靠,地位很尴尬,我以前专门评过,虽然理论上他是一个了不起的反乔姆斯基的语言学大家,一面旗帜。语义路线的评论在《语义三巨人》。quote:“坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。” 也因此更看好非学界的语义,如果语义可以突破的话。
白: 不落地的知识只是玩具
李: 对,这些语义大师都不大接地气:做了很多细致的工作,但是忽视了工程可行性和简易性。他们的个头都太大。cyc 为最。
白: 知识落地,与商业模式极其相关。
李: 还有一条,最好不要强调语义的推理功能,因为强调了推理,就过分偏向形式逻辑,其结果是追求系统的理论完备,最终是更加脱离实际和现场。
白: 董老师没有明说出来的应用场景是机器翻译,但机器学习正是大踏步甩开语义方法的节奏。没踩上点儿。
李: 董老师本来是接受前人的教训,但后来我觉得他也还是吃了完备性的亏。语义自底而上建筑,从数据来,不追求完备,也许更可行,更接地气。
白: 推理不一定是演绎推理,演绎推理也不一定非要达到证明四色定理的程度不可。根据应用场景来剪裁知识和推理,可以和语言松耦合。找到合适的毛毛虫,洞穿由不可计算性和NP完全性组成的传统壁垒。
李: 句法(包括词法)是一个便宜直接的手段,有意绕开是舍近求远,工程上不合算。即便像汉语这种几乎没有词法,句法显性形式也使用有限的裸奔式语言,这些形式还是可以在语言理解过程中,省去很多语义匹配的麻烦,更不用说其他的语言了。句法的形式手段如果用features来表达的话,从量上看是在百位数上,不到千,常用的 features (包括POS和一些词法范畴)不过几十个,用起来非常 tractable。而语义的 feature set 却大了至少一个数量级,里面的 hierarchy (taxonomy 以及其他关系)也复杂得多(看看 HowNet 和 WordNet 即知),玩起来自然繁难很多。
即便只选择使用里面的一个高频子集,也在千位数的数量级上,非高手不好玩。还有一条,语义限制条件更多地具有模糊特性,这就是为什么语义系统特别强调“优先”语义的概念,任何语义都不是绝对的,都可以一层层松绑,这就给绕开句法做语义的系统更增加了难度。因此我一直认为,“纯”语义系统只具有理论意义,没有太多工程价值。
一般人都是句法为主,语义为辅,语义只是为弥补句法的缺陷。遇到高手,也许可以考虑语义为主,不排除使用显性句法(包括词法)形式。虽然这一路还是有点主次颠倒、舍近求远的意味,但是在大数据支持下,自底而上做语义为主,庶几可以闯出一条路来,也未可知。
白: 对裸奔保持一种鲁棒性,对句法上合理的结合寄予足够现实的优先考虑,二者是统一的。比如“我是县长派来的”分析到“县长”,不向左寻求结合而向右,就体现了句法的作用。向右结合意味着“等待”,意味着“记忆”,如果不用栈,至少也要有类似的机制。当然不是中递归。“把”就基本上铁定右结合的。除非不是介词把而是名词动词把。
李: “纯”语义系统的学术价值在于,理论上语义系统可以是独立于语言的,一套系统可以对付所有的语言。句法词法之类离不开具体的语言,所以,绕开了句法词法,仅仅从词汇概念出发来构筑语义理解系统,就可以从语言的依赖性上解放出来。另一个意义也是理论上的,如果像汉语这样的常常“裸奔”的意合语言该用小词形式的时候常常不用,那么就需要不借助小词的纯语义系统来对付,而这个纯语义系统应该可以两边通吃,无论句子用了小词没有。这个意义没有实际价值,因为两边通吃的前提是假设纯语义系统能够搞定不用小词的裸奔语句,就像句法系统对付小词丰富的语句一样。这个假设在可预见的将来不会成立,因为少了形式的这条腿,纯语义系统很难达到句法加语义系统的分析质量。
但是,无论多么纯的语义,绕不开的是词汇。如果词汇对概念是一一对应的,理论上可以做出一个 100% 纯粹的语义系统。否则,只要使用词汇手段,语义系统就开始不那么纯粹了。
白: 概念也有人为性。比如格的同一性和命名。“把这把刀切肉了”,不知道算宾格还是工具格。
李: “切肉”作为动宾类合成动词,不再有宾语的槽了。因此这个 把子结构(介词短语) 只能做一般的状语用。在一般的状语中,工具是一种可能的语义关系。
白: "把这把刀切刚买的骨头了".
李: 您的例子已经开始有些怪异了,我听上去觉得不大像 “人话”,也许是我不懂语境。
白: 从人话到不是人话,是个连续统。 “刀刃怎么崩了?” “哦,我把这把刀切刚买的骨头了。”
https://blog.sciencenet.cn/blog-362400-930231.html
上一篇:
泥沙龙小品:小词搭配是上帝给汉语文法的恩赐下一篇:
《泥沙龙笔记:搜索和知识图谱的话题》