【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】
已有 5643 次阅读
2016-2-23 06:49
| 个人分类:立委科普 | 系统分类:科普集锦 |
分层, 依存, 组合爆炸, 领域算法, 并列
以前论过 (【NLP主流最大的偏见,规则系统的手工性】 ),(有监督)机器学习的知识瓶颈是需要大量的带标数据(labeled data),以克服稀疏数据(sparse data)的困扰。很多时候,学习算法的改进远不如数据量增加带来的好处明显。这在带标数据普遍不足的情况下是机器学习界大家公认的痛点。然而,不能因此认为,只要带标数据足够多了,NLP 的任务就基本解决了,至少对于高端的NLP任务,譬如 deep parsing 或舆情分析,任务的痛点不仅仅是数据量。接着昨天的话说, 不单是 cases 不够,所以需要 R(推理), cases 再多,也还只是一个切面的呈现。 如果对象的本质不是平面的,而平面的呈现只是表象的话, 那么再多的案例也不能根本解决问题。SMT (统计机器翻译)如今遭遇的结构瓶颈的实质就在这里。 换一个角度看案例或labeled data,它们本身就是组合爆炸发生以后现象中的一个子集。 解决问题的钥匙在于了解这种组合爆炸背后的领域算法,模拟这种爆炸的背后的领域知识的推理或逻辑,而不是绕过它,以为一个超领域的算法可以包打一切, 只要根据结果,就可以倒推出来合适的领域处置来。 领域是绕不过去的坎儿。 至少语言学作为一个领域,这种体会是太深了。 对语言学不求甚解一样可以玩nlp的黄金时代终将过去。
什么叫领域算法?
先说个自身经历的事儿。搞过NL parsing的人都知道, 并列结构(conjunctive construction)是公认的 parsing 拦路虎,是真正的痛点。它打破了依存关系的日常秩序,是个难缠的东西,我跟它斗了一辈子。 并列结构与其他依存关系譬如主谓宾定状补之间的纠缠,可以发生在语言现象的任一层次,从词法一直到子句。并列打乱了所有的依存规则正常运作,而且并列结构的边界极难确定,没有“优选语义”的对比权衡很难搞定它。 我一辈子做过三个大规模real-life的英语parsers, 在国内为MT做第一个英语 parser,到美国为IE做第二个parser,都一直没处理好 conjunctive 的结构,就是凑合事儿,头痛医头地对付而已。直到现在做第三个 parser,天道酬勤, 事不过三, 才终于受到上天的眷顾,琢磨出一套一时讲不清也不愿意讲清的语言学算法,把这个问题解决得比较圆满,从结构上“逮住”它们,并与其它依存关系协调好了。这就是我说的领域算法,是领域专家根据领域的自身体系和结构知识,经过艰苦努力求解出的做法。 解决这个语言学的结构纠缠的难题,花费了几十年的时间,做了无数尝试,栽了许多跟头,这才找到合理有效的算法。这样的东西在通用算法中怎么绕得过去?通用算法面对领域难题,想要取得类似的有效性,光靠调试语言学的参数或features,而不是做算法上的领域化,这是不可想象的。
大而言之,无论自然语言多么复杂,里面的关系如何相互纠缠,很多现象怎样的相互依赖,但这一切都不能否认语言处理总体上的由浅入深的过程性。很多分析可以恰到好处地捕捉不同层次的关系,得益于内部处理的分层而行。这些分层既遵循语言学的一些大的原则,也需要融合很多具体现象的处理次序的确定。哪一步先做哪一步后做、在何时做何种补救等等,这一切都是领域算法的反映。这种东西必须用某种方式参与到系统中,NLP的深层paring才可指望。单层的统计路线的parsing,用到了形式语言的formalism,谈不上语言学算法的利用。多层的统计路线,对于parsing的研究,似乎刚刚开始,怎样合适地吸收利用语言学算法,值得引起注意。
要点就是,cases 和 labeled data 不能从本质上解决组合爆炸问题,最多是逼近常见的组合呈现。这实际上也是乔姆斯基一直居高临下看统计派的根本理由。这也是 Church 《钟摆 》一文(【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 )中一再反思(机器学习)近似方法的局限性所提的主要论点。类似观点也包括 AI历史上著名的神经网络的敏斯基 批判:当年他的批判是说,无论你有多少data,如果你的方法就是线性可分性质的算法,那么当客观世界的现象是线性不可分的时候,你就死定了(【读书笔记:异或门是神经网络的命门】 )。 传统的理性学派,符号逻辑派,语言学结构派,等等,他们探索的路子,是不是真地就是客观现象合适的模型,或者从本质上模拟了人的大脑的工作原理呢?虽然难以证实这些路数模拟就是大脑的工作原理的模型,但是,比起传统统计派(如今的 DL 可能不同了)把AI和NLU看成黑箱子,只从输入输出配对的data中去训练一个单层或浅层的模型,不得不说,传统理性派接近大脑工作原理和逻辑,要比统计派近得多。
传统 AI 的符号逻辑派没落的主要原因是不能 scale up,大多是一个极为狭窄的领域里面的toy系统,无论从量上还是从领域化的扩展上,要想实用,路途尚远。 统计派于是登堂入室,鸠占鹊巢,开始还不屑用 AI 的名称,如今是全面拥抱这个媒体自来亲的术语了。
但是,作为 AI 分支的 NLU 却不同,比起传统AI符号逻辑派的不能scale up,NLU 的规则派却能做到可以与统计派抗衡,同样可以 scale up 到真实的大数据场所。 这里面的奥妙就在,语言学是一个相对 self-contained 的世界。几百年积累下来的语言结构的理论及其结构分析方法,譬如依存结构、短语结构等,有一个相对明确的框架,可以形式化地加以利用。这种形式结构对付语言现象的组合爆炸非常有效。就目前的认识来看,这应该是人脑的语言机制的最接近本质的模型了(参见:【自然语言parsers是揭示语言奥秘的LIGO式探测仪】 )。
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。 链接地址: https://blog.sciencenet.cn/blog-362400-957950.html
上一篇:
【泥沙龙笔记:从民科扯到五代机及其AI历史与现状】 下一篇:
【李白对话录:从“把手”谈起】