《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《泥沙龙笔记:谈parsing的深度与多层》

已有 3813 次阅读 2016-6-12 19:05 |个人分类:立委科普|系统分类:科研笔记| cascade, 卷积, 深度分析, 多层, 深度神经

我:
说到层次也有意思。
自从深度神经大热以后,我也沾光了,甚至连术语词汇,与有荣焉。
第一是深度(deep),第二就是这个多层(multi-level),其实说的是一回事。
我践行和呼吁 deep parsing 快 20 年了。这 20 年,主流学习一直在浅层挣扎,把浅层 ngram 和一包关键词(bag of words)的密度做到了极致,没人理睬深度 NLP 和 parsing
大概两三年前吧,忽然发现我谈深度parsing有市场,有听众了,deep 成了 buzz word,大家唯恐不深。
事实是,此深非彼深
刘:
@wei ,在上海会有大量女听众
Nick:

建议你不要用deep parsing,用big parsing

deep有点黄

我:
直到今天,深度神经的绝大多数还是没有用到结构。
开始深度结构的是 SyntaxNet  但是那个深度神经项目不是NLP应用,而是 pure NLP 离开应用还八丈远呢,而且局限于新闻领域,根本就不讲 efficiency,实际上就是一个 research
我说的深度 parsing 与 NLP 应用是天衣无缝衔接的,前者有领域独立性,后者有domain portability,与 SyntaxNet天壤之别
不过还是得益于深度学习(DL)的热潮,我现在可以理直气壮地大谈深度 NLP、deep parsing,以前谈 deep 会被人暗笑或忽略的
本群@Jin 老友是第一个夸赞我的 deep 的,人家也是老革命了 知道深浅
QUOTE: I worked directly with Dr. Li when providing consultation services to NetBase on statistical language processing and machine learning. By then we had been keeping in professional touches for over a decade, centered around our common interests in computational linguistics and natural language processing, especially in Chinese. Even today we had quite intensified technical exchanges on Chinese NLP.

To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications.

It's really fun to work with, or simply debate with, Dr. Li, given his broad experiences, deep knowledge, insightful vision, and most importantly, his love of NLP.
January 3, 2012, Jin was a consultant or contractor to Wei at NetBase Solutions, Inc.
2012 年的 endorsement 啊,多么宝贵。
Nick:
以为这是研究生推荐信
我:
你外行,看不懂。我与Jin心有灵犀。
他当年把 Chinese NLP 半个世纪的核心工作切词,做到极致,是理论和实践的集大成者和终结者。我一直不隐瞒我的观点:在他以后,汉语切词已经做无可做。Jin 以后,无切词。有的只是工程细节。汉语 NLP 必须翻过这一页了。(应该立法禁止切词研究
Nick:
deep throat本是一部毛片,但水门事件里那个隐藏极深的人代号也是deep throat,才把这个词洗白了。但deep还是不好。
我:
现在可不同了,一个 deep 一个 big 都是不得了的 buzz words:深度神经,深度文本(脸书所谓 deep text),大数据,大知识,不一而足。
也许可以预见 不就将会流行 thick 和 hard
春江水暖鸭先知,hard NLP 我已经开始用到了:泥沙龙笔记:NLP hard 的歧义突破
关于 thick,就是我下面要说的 多层。层多了,自然就厚了。
本来,传统的规则学派都是乔姆斯基 CFG 那套,每个学 CL 的人都玩过 chart parsing 的算法,那玩意儿是一锅炒,根本没有厚度,就是薄薄一层,路径组合爆炸,根本不可能有线性算法,自然也做不了深入的语言分析。本群雷司令为了给 CFG 找线性或接近线性的算法,博士阶段苦苦钻研了好几年,到头来不得不承认,没辙,只要有所谓 center recursion,线性就永无出头之日。这意味着,那一套规则系统基本上就是局限于实验室,是象牙塔里面的玩具。
可我除了博士阶段的玩具课题不得不跟随导师做 CFG 机制上的 HPSG 以外,一辈子做的都是有限状态。打从社科院起,做了30年的有限状态 成精了。有限状态自动机(FSA),说白了就是扩展了的 regex,一般人都笑话这个机制的简陋 乔姆斯基对它也有经典批判 哪里想到有限状态颜如玉,FSA++ 里面有黄金 就是白老师说的穿越乔家大院的“毛毛虫”
以有限状态为基础,增加层次,做适当延伸,这就是白老师说的毛毛虫 我叫做 FSA++
FSA++ 是梦寐以求的东西啊,上下而求索,还要加上运气,才可得。
现如今,深度神经为了比粗度,宣传上可了不得。昨天说谷歌做了 32 层,叫什么来着,卷积。今天的新闻就说,Facebook 做到 36 层卷积了。
我就回想我做的多层,如今也有宣传效应了。社科院那阵,在导师手下,那个 formalism 比较简陋,导师也保守一些,我们当时做了四五层。到了我来美投身互联网泡沫革命的时候,在水牛城,我最多做到 100 层的 parsing,我们不叫卷积,我们这边叫 cascade 就是一层一层自底而上、由浅入深 叠加去 parsing。你想想,我的分析深度比传统的乔姆斯基经典 CFG parsing 要深入多少。
自然语言复杂啊,多层了就化繁为简,模块化,各个击破了 这其实是所有大型软件工程的常识。但是大家也不是傻子,为什么这么多年做 多层 parsing 的人不多呢?做不出来啊,千丝万缕,这一刀一刀不好切。没有这个语言学的素养 悟性 而更重要的是无数的摸滚爬拿、皮青脸肿的炼狱一样的经历 你想多层 根本无从下手。庖丁解牛 游刃有余 那是多少年练出来的把式 所以说 难者不会 会者不难。
如何处理模块之间的接口 以及相互依赖(interdependency)的关系?多数人根本没门儿,不是不想深入,是缺少伟哥。
好了 到硅谷这边重起炉灶 我仔细想了这个多层的设计问题 结论是 100 层没必要 太过叠床架屋,过犹不及,并不是越深越好,开发维护都不合算。如今稳定在 30-40 层之间,已经足以对付人类语言的绝大多数了。
姻缘巧合,如今深度神经也是 30 多层训练。
不过此层非彼层,前面说过的。
刘:
@wei ,太强了
学习中
我:
此层非彼层,深度神经对于 语言处理的应用,不管训练多少层,还是在浅层 根本就没有结构的支持,怎么能成事儿呢?本质上还是传统机器学习的延伸 语言学上没有长进 这就不怪在 speech 和 image 上高歌猛进的深度神经会遭遇 text NLP 的滑铁卢。
这就是我为什么说,今后三五年,深度神经 在 text NLP 应用上如果想要突破的话 很可能是要借助 deep parsing 的伟哥式 support,无论是我提供这种 support 还是 SyntaxNet 提供 总之是要引进结构。
自然语言就两条腿,一条是 node (词汇),一条是 arc (结构)。任何一条腿都可以推向极致,但是总也不如两条腿走路。深度神经不用我操心了,他们碰壁之后一定会长教训,一定会求助于结构。我这边,应用层面的开发一直就是无缝连接在 deep parsing 之上,历来如此
刘:
建议李兄尽快回国开干
我:
而且语用层面的开发由于独立于领域的 deep parsing 的神力支持,只需要薄薄的一层  领域移植性特别强
吹牛完了。该干实事了。
Jing:
@wei 有个创业公司metamind,做的是这二者的结合,斯坦福一个AP开的,不过没多久就被salesforce买了
我:
10多年前我们也尝试过学习引进结构,不过没有机会深入研究,初步试了一下
结论是:有希望,有难度。promising 但不是一合并就能成事儿
Jing:
这个公司就基于funder的论文搞的,融了不少钱,应该也卖得不错。@wei 可以参考一下嘛
方法非常简单,尤其是parsing部分,您肯定能做得更好,包装得更牛
我:
如果机缘中遇到投缘的机器学习牛人,很愿意合力去做,取长补短。否则就一条路走到黑,反正到目前为止 text DL 我看不出有赶上我的可能。
无论是 parsing 本身的质量,还是 NLP 深度应用。
浅层 NLP 应用没办法,人家已经占领了。
Nick:
嗨,伟哥现在的问题是又想套狼又不舍娃。其实有啥,我都再次下海了。再想想毛老到美国留学都44还没高中文凭。嗨,等我回去喝酒啊。
Jing:
就是,舍得一身剐
我:
Nick 站着说话不腰疼
Nick:
我腰不疼腰子疼
我:
你老弟狼也套了 牌也立了 无后顾之忧 自然乐不思蜀。

腰子疼还不赶紧回到米国的一片蓝天净土修养 岁数大了 不要到处去做风水大神了 坑害上进青年 正经做 AI 评书

Jing:
搞个象metamind这样的一点风险也没有 我觉得教授能搞的您都能搞
马:
冰冰上进吗?
我:
这个要问尼克了
Nick:
非常上进
我:
我早发现 IT 成功人士都是怎么个活法了
羡慕嫉妒恨得咬牙切齿啊。
譬如尼克吧 一边 AI 评书,一边风水女青年,一边还下海捞着外快,享受着光环,这是做人的极致。
譬如吴军吧,满世界旅游和演说,粉丝无数 写书 写一本畅销一本 演说吧 万人空巷
马:
喜欢尼克的AI评书
我:
马老师说的极是,尼克AI评书特别好
我20年不读书了,不读纸质的书,可尼克送了我一本以后,我就破戒了
洪:
自己不读书,只让机器做parsing,这也是一绝
我:
哈 这世界奇事儿多着呢
我不读,爱写,只出不进。
Nick:
@wei 别吓扯,人家失着恋呐
我:
这种生活状态 他失恋才好呢 后面还不是无数
洪:
@wei 你这是诅咒自己的未来啊。可不能对未来的自己羡慕嫉妒恨啊
马:
“人家”一般指说话人自己?
Nick:
我失着恋呐
马:
果然是
Nick:
马老师的small parser better than伟哥的big parser
Jing:
就做nlp的伟哥不理解 呵呵
我:
吴军 尼克 洪爷 都是学富五车的侃爷 有这个本钱
我学是差了点,但勤以补拙 论侃不比各位差 到我后顾无忧那天,我就满世界侃 直侃得昏天黑地
Nick:
千万别把吴军和我洪爷搁一块
Jing:
故事讲得好需要天赋
刘:
尼克的八卦能力见识过,强
我:
吴军真心会制造buzz
当年李开复也好这个 大病一场后终于收手了
尼克还在兴头上呢
电视节目还在做吗?
洪爷还邀请我跟你们搞个铿锵三人行啥的
Nick:
千万别把李开复和我搁一块啊。
我:
开复前辈社会媒体形象很不好
是不是过分张扬或者树敌太多造成的?
前者是实,后者觉得有点冤枉他,毕竟书生
我:
QUOTE 特别是最后这张好恶(likes/dislikes)理由对比图,主调是贬,红呼呼一片谴责之声,是不是有些令人吃惊?开复老师到底怎么得罪网民了,还是中国文化的酱缸性质容不下张扬一点的英雄?
大数据不会说假话。
Jing:

再张扬比得过王思聪?




【相关】

【泥沙龙笔记:关于语法工程派与统计学习派的总结】

【新智元笔记:工程语法与深度神经】

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

【新智元笔记:李白对话录 - RNN 与语言学算法】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

《立委随笔:机器学习和自然语言处理》

社媒挖掘:社会媒体眼中的李开复老师

泥沙龙笔记:NLP hard 的歧义突破

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】




【置顶:立委科学网博客NLP博文一览(定期更新版)】  






https://blog.sciencenet.cn/blog-362400-984164.html

上一篇:《泥沙龙笔记:微软 Natural Interface 回顾》
下一篇:【把酒话桑麻,MT 产品落地史话】
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 17:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部