《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【泥沙龙笔记:关于语法工程派与统计学习派的总结】

已有 5388 次阅读 2016-6-3 08:29 |个人分类:立委科普|系统分类:科研笔记| 机器学习, 规则系统, 工程语法

再谈一哈语法工程派与统计学习派。

总结一下要点:

【1】 规则系统模拟人的语言理解,着重结构分析,深度上是关键词(ngram)系统无法达到的

【2】 规则系统以前多局限于实验室,做的是玩具,速度也不能 scale up,AI 的玩具如此,NLU 最常用的乔姆斯基的 CFG 为底的 parser 也是没有线速算法的。
【3】 我们做的是多层的有限状态为机制的深度分析,线速,已经多次 scale up 到大数据和社交媒体,真实世界的 apps
【4】 多层有限状态系统的关键是必须有经验的架构师才能玩转,没有多年的积累无法构建多层模块,协调好接口和通讯
【5】 深度句法分析是语言理解的核武器,是因为语言是由词汇和结构叠加而成,而统计派的NLP落地为产品迄今一直缺乏结构支持
【6】 任何 NLU 的产品,要想做得细致,必须有深度结构的支持;没有结构的关键词技术只能支持粗线条的NLP产品,靠的是分类聚类等统计算法。
【7】 一定要深度分析与当前正火的深度学习结合的话,深度分析的结构结果可以考虑作为新的 features 来帮助深度学习系统
【8】 深度句法分析离语义理解只有一步之遥
语义理解最终决定于应用(语用)层面的语义落地, 而从深度句法到语义落地,这一步可以很容易扩展,因为苦活脏活都在 deep parser 里面做掉了。

【9】 deep parser 是核武器,很繁难,但是是领域独立的,一旦做了,就可以支持各种应用。这样一来,语义落地模块面对的是逻辑化的句法结构,使得一条逻辑结构的语义规则等价于千百条(毫不夸张)语言表层规则的能量。

【10】 deep parser 的繁难和手工性在工业界不是缺点,而是竞争优势,因为它把竞争对手抛在后面,提高了门槛。而学习方法,不管怎样花样翻新,对手赶上来的机会和速度还是大多了。

譬如 语音识别的突破,首先是在一两个小组,譬如 Nuance 和讯飞等,但很快整个行业全面提升。因为方法是通用的 自动的 迟早会被赶上来。规则系统的设计和实现则不然,因人而异。何况过去20多年,规则一派严重的断层,学问的传承只有极少数幸存的人得道。



Nick:
对不同语言,parser需要改很多吗?是不是要很多修修补补的if then else?
我:
那是语言学家的工作,语言不同,词汇和文法当然不同。
但是 (1) 架构不变;(2) 有限状态FSA++机制和算法不变;(3)有血缘关系的语言之间的规则可以平移,稍加改造可用;(4)反映全世界的语言的共性(乔姆斯基的所谓 UG)的语言学算法,融合在 pipieline 的过程设计中,也是不变。

这样一来,多语开发虽然仍旧繁难,但比起从头只做一门语言,要省力很多。


【后记】

我:

这一阵子笔记爆炸,backlog 太长,根本就整理不过来。整多少算多少吧,至少不是白开水.几乎赶超洪爷打油了。到退休的时候,怎么也得整个桂冠NLP鼓吹手的称号啥的。

洪:

你的笔记是超越沈括的梦溪笔谈啊

我:

据说毛泽东思想是我党集体智慧的结晶。As long as 这个群和白老师群继续存在,立委NLP笔记也是二群集体智慧的结晶,在下就是主编而已。

Guo:

学朱德熙写"语法问答"吧。

我:

不是已经开办大学了吗?等到桃李满天下了,看那个教授有我的学生多?华人子弟学NLP的,很少有错过我的网上 NLP University 的吧?据说有些教授也在推荐。











https://blog.sciencenet.cn/blog-362400-982118.html

上一篇:【泥沙龙笔记:语义可以绕过句法吗】
下一篇:【新智元笔记:两条路线上的NLP数据制导】
收藏 IP: 192.168.0.*| 热度|

5 陈辉 徐令予 强涛 xlianggg shenlu

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 23:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部