《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《李白112:白老师秘密武器一瞥(2/2)》

已有 648 次阅读 2019-4-22 04:34 |个人分类:立委科普|系统分类:科研笔记| NLP

立委按:三载设计,两载实现,白老师的自然语言秘密武器日前曝光。挑开面纱,犹抱琵琶,一睹芳颜,先者为快。

李:话说回来,只要句法不必调用语义相谐的大数据,而只是使用语义标配的二值判断,那不过是查一下本体,也没什么可批评的。不过就是两种各有利弊的路线 选择其一。

白:不一定二值啊,可以连续值,折扣么。

李:如果折扣的话,

我吃月亮
我吃石头
我吃土疙瘩
我吃面疙瘩
我吃疙瘩

这些解析结果应该有区别,而不是都降格 或都是宾语。

白:对啊,看你Ontology怎么设计的了。这与分析器无关,取决于Ontology的返回值。

李:返回标配是二值,还是多值,多到什么程度。

白:连续值,看小数点精度。但是0.2和0.3的差别,估计不足以颠覆。能够利用梯度最理想。

李:这一球踢出去 倒是轻省了,对了是我的,错了是你的。换句话说,ontology 供应商的相谐颗粒度,不一定是二值 但也不要超出太多 多了反正也没有区别,也许三值 很搭/较搭/不搭。也许四值。ontology 供应商最好是婚恋交友网站的架构师出身,懂得如何配对。

我还是没理解 从设计上为什么句法,要在 嫡系 庶出 上较真,非要劳动 ontology,而在 主语宾语上 反而不较真。反正提供的是半成品。从逻辑语义角度 语义也还是不全的。

白:我觉得这太显然了,这事儿不正是Ontology该做的吗?要站在比它们俩都高的视角看他们俩。句法和本体,我们的方法论是,句法要给出对的拓扑。为此,Ontology、情感、事理都是必要的补充。

李:细节不纠缠 逻辑语义可以算是一个唯一可以公认的语义理解的黄金标准了。arg 与 mod 的区分,本来就不是黑白分明的。这个对错 不好说。

白:但是构建逻辑语义层的输出,虽然也同样使用Ontology 、情感、事理,但是用得更重。这两个方向的用,不可混为一谈。

李:所以说是 双重使用啊。

说起 arg 与 mod 的嫡系和庶出 有点意思 可以展开简单说说。args 是计划内的婚生子女,名正言顺 所以受到父母特别关照。mods 属于计划外的秘密勾当。因此 总是 parent 去找 args 利用 subcat 的计划内指标,到了庶出的 mods 就管不过来了,只好是 mods 去找 parent,千里寻父 叫父亲太沉重。

可是这一切的句法区分都是世俗的角度,语义层面 嫡系和庶出 并没有那么大的鸿沟,都是围坐在天父身边 各司其职 各有角色。所以说 句法费力气区分嫡系庶出 为的是服务语义和理解,可是 语义那边偏偏对这种区别其实没那么敏感。为啥?因为语义在分配角色的时候,更加看重本人的资质,而不是看重 嫡系还是庶出的出身。

白:就是因为庶出的不加标记的情况太稀疏。句法留这么多资源给稀疏的庶出,不值得。

李:本人的资质 就是你到底离我的本体要求有多远。这样来看 反正语义那边还要政审把关,用的也还是ontology 资质审查,为什么句法还要预审?

白:此地预审,方便彼地直通。

李:我是说 费力区分 Ma 与 Mo,没多大必要性。如果这种区分 是不需要劳动各种知识 那当然。如果需要费力 就不值得了。

白:从基础设施建设的角度,只为一个中间步骤建,当然越轻越好。如果建了既可以为一个中间步骤服务同时更可以为有独立商业价值的最终步骤服务,那就可以建的重一点。即使重,也包办不了落地适配。落地适配是一个既统一规划又独立实施的环节。也就是说,从一个必建的基础资源里顺手提取一些信息就可以搞定正确的拓扑,这算不得什么费力。劳动的方式非常清晰和标准化(相谐度查询),也算不得什么劳动。我们目前的算法也并不是对所有候选邻对都进行相谐度查询。只有当前动态优先级最高的邻对才做相谐性检查。

这个,显示还有点小bug,但是揭示了一个现象,就是嫡出的萝卜出现位置太远,需要许多中间步骤拉近。但一旦拉近,那个位置还是人家的,庶出的没脾气。远近并不构成威胁。把“你”挪到“食堂”后面,也是同样结果。“要是这个时间吃食堂你就只剩下包子了”,用传统句法范畴分析这个“你”,就很莫名其妙,它跟“剩下”是主谓关系吗?但是论坑,一点关系没有。它跟“吃”是主谓关系或者述宾关系吗?论坑是的,但是形式上却完全不在那些位置。甚至跑到了另一个从句的辖域里面,要多尴尬有多尴尬,谐我坑者,虽远必填。

李:好例。改造一下:

“要是这个时间吃食堂你就只剩下二厨了 大厨早就自己躲一边吃包子了”

“二厨” 比 “食堂” 如何? “包子”更远 但相谐 为什么不能虽远必填?

“要是这个时间吃食堂 大厨早就自己躲一边吃包子了。”

后面又出现了“吃”

白:截胡了,包子 第一次就近填坑。

李:填 “剩下”,与 填 “吃”,不都是劫持了吗?

白:“剩下”的坑,抽象度比较高,万金油。我们的说法是“置换”,就是把首次填的坑从占名额的调整为不占名额的,后续填的坑再视情况决定占不占名额。

李:就是说 对于远近两坑,还要做比较计算,来决定截住没有?

“要是这个时间吃食堂你就只剩下二厨了 大厨早就做完一屉包子回家休息了”

“做完” 与 “剩下” 差不多,都是万金油 vt,截住没有?

白:这个还真可以有。但前提是,子句之间得有依据是连接的。大厨做完了包子,不一定卖完。

李:人的理解,首选不是包子,而是二厨做的档次较低的食品。大厨做的包子 轮不到。

白:如果两个子句只是最低档次的连接(next),还真未必建立坑的共享。但是用连接词连接的,肯定可以共享。

李:有一万个理由否认,因为说话语气是可惜和后悔,想吃大厨的口福 你享受不到。谁叫你迟到呢。共享与共产共妻类似,是高危操作。

白:你那里只有空格,没有上句和下句的明确锚点,不在我们的共享白名单里面,不能建立Me,所以坑里的萝卜是带不过来的。跨小句需要白名单制。前提是:1、甲小句不饱和、2、乙小句有供给、3、两小句连接方式在白名单中。

李:嗯,虽远必填 限定在句法关系圈内,也是一说。

“要是这个时间吃食堂 厨师都出去买海鲜了。”

这个应该是 Me,因为符合 “要是…就…”句型。

白:对。

单从本体看海鲜就是加分的,但是事理是减分的。吃在买前,不符合事理。不符合事理的会减分,就看二者抵消成啥样了。

李:这个事理如何用 感觉漫无边际,吃在买前 这样的常识事理,何止以万计。

白:但是人就是这么判断的。这是长尾,攻击到本体的概率有限,不到落地肯定不做。

李:所以 句法不带入事理常识,语义语用才考虑用。

白:句法只是中间产物,又不是产品。加了边还可以砍啊。砍了边再加就不那么简单了。有一万种方法砍。一个公司既做句法也做落地,没必要维护句法的面子。整体可以就OK。句法提供的这些边,送神容易请神难。

李:就是大体了解句法模型,用到几个维度的知识,用到的维度 颗粒度如何。之前论过 维度多了就是一锅粥。如果符号逻辑最终还是一锅粥,那就不如索性舍弃符号。因为一锅粥最终丧失了符号的优势。可解释性不再清晰,可定点纠偏也丧失了。

白:还是要区分表示和控制。表示是符号的,控制是符号与神经结合的。这没什么不可以。

李:其实语言理解过程中究竟用到哪些知识,并不难确定。难的是 这些知识如何加分减分打群架。如果不给设计师束缚

白:人理解时也不过是在打群架,没高明到哪儿去。

李:如果不给设计师束缚,所有的知识都特征化,不限定范围和多少,然后假定神经可以搞定这些特征,那么 符号逻辑 实际上只剩下符号特征化的工作。逻辑由神经管了,果如此 自然语言理解离开终结就不远了。

白:不对。逻辑有两部分,一部分是有限的可选择的操作或变换,另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励,而所选择的操作的轨迹,是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略,这三者,我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结,更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李:设想对话场景:

A: 他要求我出示身份证
B:你出示了吗
A:出示了,结果没通过。
B:为什么?
A:因为他是检疫官,要求我出示我宠物的身份证。我以为他是警察,要求出示我本人的身份证呢。
B:这才叫场景的阴错阳差!你过的哪道关都没搞明白。

再如:“监护人向我出示了身份证,是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来,这就带来两个问题:

第一是,因为是常识、常理,而不是语言明确指明的信息,这些 hidden links 即便挖掘出来,也仍然是不重要的枝节边缘信息,更谈不上情报价值,因为一般人根据已知信息都可以推算出来。

第二是,因为是常识、常理,因此肯定有例外。例外常源于场景和背景的不同。

白:打群架好了,神经最擅长

李:既不十分可靠 也没有新意 也许意味着常识介入理解有个限度。如果常识的带入,是帮助确定了情报,那就物有所值。如果常识的带入,不过是反过来为常识增加一个案例,信息还是常识,那就没啥意义。

白:1,情报又不是落地的唯一领域。2,即使情报,3个link有情报价值,一个link是这三个link的常识推论,那这推论人做还是机器做大不一样。你先抓到那三个link,人聚焦了看,然后人得出推论,黄花菜都凉了。机器直接得到4个link,能一样吗?

3,推论重要还是那三个重要,这得情报人员自己说,NLP不应该越俎代庖。常识是带变量的f(),只要里面的x是新的,f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的,张三职务属性值就应该变化为新的。就算常识是旧的,有常识和新事实共同参与的推论也是新的。另外,疑似知识、打过折扣的知识并非就没有意义,只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李:有一定道理。

“我洗脸”,英语总是说:我洗我的脸(I wash my face)。中文解析,根据常识,可以推算出“我的脸”。感觉上 人的理解中 标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义 这个“脸”属于“我”都很难成为情报焦点。

感觉上 possessive 的 hidden links 情报性最差,在有冠词的语言,possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体(语言学里面叫 anaphor) 理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”, 虽然有个主儿但这不重要。

白:不同源头会带上不同约束,使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”,这李四要是有什么来头,情报价值还真挺大。张三是个代笔的小人物,张三的自传不重要。所以谁的自传,不简单。

李:从性质上看 寻找这类所有者属于篇章的 coreference 范畴,而 coreference 的工作,句法有一定影响 (binding theory 说的就是句法对于 coreference)。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把 一个实体对于其所有者的预示 与一个谓词对于一个 arg 的期望 等量齐观,有点高抬了前者。

白:优先级不一样。

对范畴语法做了重大简化,跟依存很接近但比他更丰富。分析结果可以不是树而是图,图还可以成环。图更科学,更反映语言实际。

带加号的句法标签,可以看成是“只约分不输出”的范畴。每次完成约分,就废掉自身,以保持中心语的正统地位。

李:就是 adjunct/mod,庶出,跟私生子也差不多,投奔过来又不能不认,但上不了台面。

我的理解,DG 与 CG 性质不同,DG 是 一种结果表示法 刻画的是output what,CG 却带有 how 的味道 表示和刻画 input tokens,可以据此演算 作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 cg 驱动以后,在遇到叉口的时候 求助于其他知识的引入,主要是语义相谐的调用。根据一个优先原则和有限级计算的机制 做路径判断 然后完成 parsing。如果不怕伪歧义 也可以只依据 cg 词典与优先级原则 而不引入其他知识。

这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以原子化为6种实关系,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之1,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。



【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录




http://blog.sciencenet.cn/blog-362400-1174735.html

上一篇:《李白112:白老师秘密武器一瞥(1/2)》
下一篇:【 立委小品:AI is fake I 】

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-19 22:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部