且喷且整理。
白: 这篇语言学的味道太浓了,不知道的还以为我是文科生呢。
我:最近看到AI和deep learning顶尖大腕坐而论道,豪气冲天。可见行业之热,大数据带来的机遇和资源。只是一条,说模式匹配(pattern matching)是毒药,我就不明白,这个结论怎么这么快就下了。你得先把 deep learning 弄到 parsing 上成功了可以匹敌模式匹配以后再下断语吧,也让咱们吃了一辈子毒药已经五毒不侵了的人服气一点不是?
再说,模式匹配可以玩的花样多去了,绝不是乔姆斯基当年批判的单层的有限状态一样的东西了(正如在DL兴起之前敏斯基批判单层神经网络一样),怎么就能 jump to conclusion?
speech 和 image,咱服输投降,不跟你玩,text 咱还要看两年,才知道这 deep 的家伙到底能做到多deep,是不是能超过多层模式匹配的deep?
如果这一仗 deep learning 真地功德圆满,就像当年统计MT打败了规则MT一样,我就真地洗手不干NLP,乐见其成,回家专门整理家庭录像和老古董诗词校注去了。
白: 伟哥,淡定
洪: 别介!不过你可以让你女儿做 deep learning,万一要败,也败在女儿手下。
Philip: 好主意,不然伟哥难以释怀
我: good idea, 要败,也败在女儿手下。
Xinan: 我觉得做PARSING的人没有把当前的计算能力挖掘出来。人家都GPU用上了,你们能把多核用起来吗?
白: 我可以断定,统计思路向深层NLP发展的必由之路就是RNN。RNN的deep与视觉/图像用的CNN的deep,有本质差别。用RNN学出正则表达式或者更强表达力的东东是自然而然的事情。因为它考虑了一个更根本的东西,时序。做到相当于多层有限状态机的能力,毫不奇怪。如果工程上再做一些贴近实际的适配,会更好。此外,RNN天然可硬件级并行,做出的专用硬件比通用机上软件实现的FSA,性能只会更好。
我: 白老师,这 RNN 是不是姓 DL ?
白: 是这杆大旗下的一支。但是RNN用纯学习的方法获得,尚有难关,但用编译的方法获得,我已经走通了。在编译基础上再做小规模的学习,是make sense的。
我: 那么 training 的 corpus 怎么弄呢?
干脆我来提供 training corpus 要多少给多少。
白: 哈哈。
我: 为的就是:取法乎上仅得其中。
当然也可以想见,取法乎中可得其上,这不是科幻。因为我自己就做过 “句法自学习”的实验,确实可以通过 self-learning 自我提高的,就是 overhead 太大,反正我没本事让它实用化,虽然理论上的路子在实验中是走通了。
白: 可以认为,之前,统计和浅层是同义词,规则和深层是同义词,但是,随着RNN/LSTM这些东东的出现,这同义词都是老黄历了。所以,复旦的美女教授教导我们说,不要一提统计就断定是浅层。是吧?
黄: 现在做浅层,发不了论文,所以越来越深。
我: 统计也的确在浅层里扎了太久。主要还是以前的低枝果实太多了。
在水牛城的时候,我的搭档牛博士尝试过做统计深层,他用我提供的parsing 做基础,去做 IE 抽取,试图突破关键词技术的质量瓶颈,当时的有限的试验是:(1) 很难,keywords are often hard to beat;(2) 但不是完全没有希望。
白: 我说的编译算统计还是规则,我自己都糊涂,输入是规则,输出是权值。
雷: rnn是胡子眉毛一把抓吗?
白: 不是。很多是“可解释的”。
我: 白老师的编译 不就是 symbolic rule learning 的一种么?提供规则模板,让统计从数据中去学具体的规则。甚至 Brill 的那套也是这个思路。当然,设计规则模板里面牵涉到的语言学,比单纯加上一些简单的 features ,要深。
白: @wei 不是,我不学规则,只是把规则实现为RNN。
雷: 是不是一个矩阵呢?
白: 差不多。
雷: 内有各种特征,这些特征上上下下的都有?
白: 隐节点和FSA的状态有的一比。输入,输出节点都是可解释的。隐节点的可解释程度不差于有限状态自动机状态的可解释程度。
我: 还是不知道你的训练集从哪里来,如何扩大你的训练集?或者只需要有限的训练集,然后加上大量的没有labelled的数据?
白: 训练是下一步的事情。准确实现规则,regex已经可以了。
我: sparse data 会成为瓶颈么?不过你的起点就是规则的话,这个问题也许不那么严重
黄: @wei 是的,现有带标数据不够,严重不够。
白: 现在想的是,稍微把毛毛虫的身材再撑胖一点,覆盖力再强大一点。但是不允许突破线性复杂度。@黄 所以不能白手起家学习。先有点啥垫底。
我: @黄 你要多少带标数据都可以给你,你赢了,给我一点儿 credit 就可以了。
阮: 如果能够用无监督的方法,在弱可用数据上学习就好了。
我: 无监督,除了做clustering,谈何容易。
黄: 您老有多少句parsed sentence?@wei
我: 没有上限,不过是让机器跑几天,输出grammar tree 的XML而已。
认真说来,用我们的自动标注做底子是一个出路,就看能不能通过大数据青出于蓝了,不是不可能。
其实,我们的手工系统,有时候为了照顾 recall 是对 precision 做了牺牲的,我完全可以 cut 掉那些照顾性规则,做一个接近 100% precision 的标注来,漏掉的不算。这样我的已经标注的东西可以超过人工的水平,因为人会打瞌睡,系统不会。譬如我可以自动标注70%,准确率达到 95%,剩下的 30% 再去找人做标注,或者不管它,以后系统用缺省的办法或 smoothing 啥的来对付。这应该是可行的。
黄: 您正式release吧,我们引用您。
白: 伟哥,你这是拿规则系统训练统计系统,整下来,统计还是超不过规则。
我: 所以我说,你需要青出于蓝呀。
以前想过给 LDC , 后来就算了,毕竟还是需要 costs,公司也没看到好处(他们不懂学界,只要人家用了,用得多了,这就是 marketing 啊)。
雷: 现在目下公开的中文标注文本,除了penn的ctb,还有什么?ctb中还是有不少错误的。
黄: @wei 您就辛苦些,包装包装给LDC吧。
雷: ctb也是收费的。
白: 我是深度不学习,而是深度编译。
我: 我是不深度学习(DL),而是深度分析(deep parsing)。
雷: 学习没深度。
我: 咱这帮三教九流不同背景来的,成群口相声了。
雷: @白,编译=置换?
白: 不是置换
雷: 那是什么?
白: 从句法规则映射到权值。让相应的网络在实际跑起来的时候,做的动作恰好是分析。
雷: 再把权值映射到规则?
白: 不了。
雷: 画个图?
Nick: @wei 你这篇码出来就叫"情到深处仍孤独"。
我:yeh, deep,情到deep仍孤独 whether deep learning or deep parsing
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-931535.html
上一篇:
《泥沙龙铿锵三人行:句法语义纠缠论》下一篇:
衙门的文化