博文

【deep parsing：植树为林自成景（30/n）】

已有 4082 次阅读 2016-4-16 17:12 |个人分类:立委科普|系统分类:科研笔记| 自动分析, 结构树

白: “孙悟空是石头缝蹦出来的”“菩萨是泥捏出来的”“牛奶是牛挤出来的”

我: 把合成词捏泥加入了。另外，"牛" 还需要一点特殊处理，因为这词社会媒体舆情用得太广, 以至于作为动物的用法，需要特别捡回来。其他来看，这个结构蛮简单清晰。里面藏着什么机关？

白: 石头缝、泥、牛，语义上分别是处所、原料、母体，句法上作S还是O还是什么，可能要推敲一下。

我: 这些细线条逻辑语义，正是董老师一直提倡的语义分析。句法完成结构以后，语义中间件要想磨细活，可以朝细线条方向发展，难度并不大，因为一有结构，二有本体。从主宾补定状（SOCMA）映射到几十个逻辑语义，是个 tractable 的任务。不过，说句实话，用处不是很大，至少对于情报的信息抽取（IE）这个最普遍的NLP语用场景。

做出细线条逻辑语义，语义上是好看了，但还是省不了映射到领域需要的 IE templete 这一工作，这个映射基本上仍然是词驱动的。那么，通过node上的细线条逻辑语义去映射，与直接通过 SVOCMA+node 去映射，省功不大。说到底，逻辑语义的 roles 也不过是给 SOCMA 等 nodes 增加了一个词典静态 tags 以上的一个动态的标签，其中还与已经有的词典标签有相当的重合面。譬如，“石头缝” 有 place 的词典标签，映射到逻辑语义就是 Role=location，基本是对应的。增加的信息并没有关键的价值。

总结来说就是，有闲的话，逻辑语义可以做细，而且这也是语义分析深入下去的正道，至少比 FrameNet 的不尴不尬的路子正（见博文：《语义三巨人》）。但是如果语用是 IE 和知识图谱，其实做这一步还是不做这一步，经验上是看不做更合算。我们做了18年IE、舆情和图谱，不是没条件和资源去走这一步，而是没有感觉到这个必要性。当然我们parsing中比 SOCMA 五元关系还是多加了一些逻辑语义标签，不过远远没有董老师定义的那么全。董老师的定义和线条的细密程度，估计是根据 MT 的需求来看的。也许在 MT 的场景，细一点全一点比较有利吧，可以在结构转换中把译文整得更漂亮地道一些。

转一个博客评论过来，以及我的回应，深度神经要是成立一个宗教，保不准比Li大师还火，信徒是不愁的。

[4]tuner 2016-4-15 20:54不是不捧场，确实是不懂啊。
NLP不知道解决到什么程度了。不过我相信，如果你能提供大量的（百万计）句型和答案的案例，用来训练深度神经网络，一定可以解决得很好。即使你们不相信也不屑于去尝试，只要问题很重要，其他人也肯定会去尝试的。
我的回复(2016-4-15 23:36)：“如果你能提供大量的（百万计）句型和答案的案例，用来训练深度神经网络，一定可以解决得很好”。这种对深度神经（ NN）的信心听上去很像信仰。不仅科学可以变成宗教，科学里面的一个分支其实也可以变成宗教的。百万计不算啥，要千万也行，要多少都行，反正是机器自动跑。问题是取法乎上仅得其中是古训，难不成NN可以违反这个古训，出现奇迹？不是说奇迹不可能发生，不过在发生前除非信仰者，还是持怀疑态度显得正常一些。声明：argue for argument‘s sake，并非针对 NN，确实不懂啊，虽然朋友中很多懂的。

问题: 是什么魔力使得全世界的学者、CXO、风投、记者甚至普罗在大多数人其实并不懂的情况下就这么痴迷深度的神经呢？甚至在深度神经还未解决其他路径已经解决的领域，也是如此，遇到好事儿，就忍不住要归功于它，这个科学传播的 marketing 简直邪门了。

隔三差五，在我们公司内部就有 marketing or business 老总给我转一个某公司深度神经如何如何的 email 来让我看看，这个黑科技是不是要很快赶上来，能取代我们的深度分析舆情技术。我的回馈是：取代近期不可能发生，长远一点值得关注，而且我们内部也在用深度神经，不过我们目前只是用在它擅长的 image识别上。

Nick: 两条路线斗争都反应到你们marketing了

我: 可能取名也很重要，深度神经（dnn），一听就非同凡响。我以后也不宣传深度分析（deep parsing），深度理解（deep understanding）了，太不显深奥。以后我就叫，深度解码，deep decoding，怎么样？解码人类语言的奥秘。这个名字其实老实、真实得可怕。人类用语言编码，机器用语言学解码，就这么简单。

谢: 深度非神经人类自然语言解码器，这个如何，李老师？

Nick: 非神经挺好，nnn

谢: 非著名相声演员郭德纲，哈

这个自称是非著名相声演员郭德纲通过自个儿说相声说了些著名的相声段子说得自己已经非常著名了

哎，脑子一热怎么想到这句话了，容易 parsing 么

我: 非神经好。就是挑战性、挑逗性强了点。自从进入后毛委员时代，反潮流就成了贬义词。

正如资本家是人格化的资本，每根毛管都滴着血和肮脏的东西，我们语言学家就是人格化的语言，每根神经都繁殖着结构树和知识图谱。

哈哈这老弟替wei哥担忧。

QUOTE：之前用逻辑方法解决复杂问题，结果不尽如人意。这方面的例子就有围棋，之前最多是业余二段；还有图像识别，之前最好的识别率是74%。

使用深度神经网络后，AlphaGo围棋大概是13段（可以让职业2段4子，而人类的9段无法让职业初段2子），图像识别率超过99%（人类是95%）。这表明，深度神经网络解决复杂问题的能力，已经全面超过人类。我不懂NLP，但如果它也是需要复杂逻辑解决的问题，而且是答案明确的问题，深度神经网络就一定可以胜任。这不是信仰，而是现实情况。

深度神经网络非常新，也就10年前才出现。今后必然会在更多的领域应用。人类围棋玩了两千多年，天才也需要苦练十几年才能到9段，结果让几个不懂围棋的人在短短两年的时间超越了。今后很有可能在NLP领域，几个不懂NLP的小孩，会把你们这些专家超越了。兄弟，要有紧迫感啊。

我: 我有啥紧迫感，巴不得科技大革命，我好专心游山玩水去。

人的能量过甚，执着不放，那是没看见黑科技的威胁，如果真地像语音识别领域整个产业全面提升了，到处可见同样或类似质量的技术，那还有啥动力去执着自己的一亩三分地?

[6]魏焱明 2016-4-16 02:33我干过这篇文章，写得很爽歪歪，你的parsing碰到我这句话又卡壳了吧，镜子李？

我: 博主回复(2016-4-16 11:22)：不知道算不算卡壳？可怎么在回复中贴图啊，老弟？

罢了，我放到正文去吧，算是对挑衅者的一个 special service，：）

什么破话，人能懂么？Anyway，仔细看，VP “写得爽歪歪”的逻辑主语是“这篇文章”，而不是“我”，这是个错儿。这是 X double-bar 的 VP，具体到 X no bar 动词“写”，其逻辑主语则是 “我”，无误。因此只能算半个错儿。都是 dependency grammar 坚持白马非马，没有加 bar 惹的祸，不赖我。

【相关】

【deep parsing：植树为林自成景（10/n）】

【deep parsing：植树为林自成景（20/n）】

【立委科普：语法结构树之美】

【立委科普：语法结构树之美（之二）】

《语义三巨人》

【置顶：立委科学网博客NLP博文一览（定期更新版）】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-970546.html

上一篇：【泥沙龙笔记：依存语言学的怪圈】
下一篇：【立委科普：结构歧义的休眠唤醒演义】