|||
同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是:
1. NE1 BE NE2 的 R
张三是李四的同学
== 李四是张三的同学
2 NE1 NE2 R
张三李四同学过
== 李四张三同学过
3 NE1 AND NE2 R
张三与(跟、和、同)李四同学
李四与(跟、和、同)张三同学
4. NE1 NE2 BE R
张三李四是同学
== 李四张三是同学
5 NE1 AND NE2 是 R
张三与(跟、和、同)李四同学
李四与(跟、和、同)张三同学
6 NP(Plural)R
她们从小同学
“她们” 不仅仅是 Plural 而且必然是指的 2 entities
7 NP(Plural) BE R
她们是同学
BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP:
“我的同学” 逻辑上等价于
==【我】是【我的同学】的同学
==【我的同学】是【我】的同学
假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是:
【我的同学(张三)】是【我(李四)】的同学。
== 张三是李四的同学。
逻辑表达式是: 同学{张三,李四}
Note 谓词后是集合 { …… } 不是 list < …… > 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。
最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《知识图谱的先行:从Julian Hill 说起》),当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看能借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。
好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。
【相关】
Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)
Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 23:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社