《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

遭遇脸书的 Deep Text

已有 3778 次阅读 2016-6-16 08:29 |个人分类:立委科普|系统分类:教学心得| Facebook, text, deep, 脸书


前几天脸书发布 Deep Text 新闻,在AI和自然语言理解领域引起热议,媒体上也闹出很大的动静。昨天笔者第一次亲身遭遇脸书的 deep text, 确认了其浅层无结构的本质,甭管它训练了多少层。
我跟女儿对话总是用脸书,她的圈子都用脸书,基本不用微信。她遇到一个烦扰有点着急,我就告诉她 take a deep breath, 没想到脸书立即跳出了 Uber 的链接:我只要一按钮 出租车就会来。
天哪 这就是所谓 deep?很可能不过是个基于 ngram 的分类系统,哪里有 deep nlp 和结构的影子?
大概训练集里有不少 Take a ride, Take a cab,  结果 take a deep breath 就也成了“出行”类事件了。这种信息抽取要是在 parsing 的结构基础上,哪里会出这样的笑话。
报道说什么deep text理解语言接近人的水平,牛皮吹没边了。比我们 parsing 支持的抽取能力和精准 相差何止以里计。
这其实不是意外的发现,因为机器学习界一直就是在浅层做NLP,没有深度,没有结构,没有理解,缺乏细线条的分析 (parsing) 能力,大多是粗线条的分类 (classification) 工作。
对于分类系统 只有输入text大 机器学习才有效。如果是短消息,基本就是瞎蒙,关键词密度在短消息中没有了优势,缺乏 data points 的证据。
事实上,迄今的几乎所有的nlp应用,基本局限于无结构,机器学习 deep 不 deep 没有改变这一点。这很可能是为什么深度学习(DL)在 text 方面似乎不给力的症结所在。
宋老师前两天说话,学习 deep 了 的好处是可以消化更多的训练数据,但是数据的增加永远是线性的,而 text 里面的结构性决定了语言的组合爆炸,因此深度学习不会因为增加数据而根本改观,稀疏数据依然是挑战。ngram 与 bow(bag of word) model 不变,再深的训练依然是在语言浅层挣扎,只能做粗线条的 nlp,却难以胜任细线条nlp的任务。ngram 只是语言结构的拙劣近似,缺乏结构是迄今的死穴。parsing 基础上的事件抽取(event extraction)比ngram上的事件分类(event classification)高出岂止一头,一细一粗,一精一庸。




https://blog.sciencenet.cn/blog-362400-984951.html

上一篇:立委 NLP 频道 开张大吉 域名 liweinlp.com
下一篇:Deep parsing 每日一析 半垃圾进 半垃圾出
收藏 IP: 192.168.0.*| 热度|

2 陈辉 翟自洋

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 16:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部