||
听说咱们科学网NLP大牛李维老师开讲座,必须参拜一下。于是咱订了高铁,奔赴会场。李老师果然器宇不凡,讲起来激情四射,从身世讲到创业,讲到中文自动分析,头头是道。师从中国机器翻译的开创者刘涌泉刘卓老师,中关村创业,美国TREC第一届评测拿第一,获得2000万刀资金,这是个传奇。
一般来说,公司技术细节都不轻易外漏,在下突破行规,步步追问,方知李维老师基于规则的语言处理系统一隅。居然用的是Finite State Machine,不用recursive tree。一用就是几十层,每层几百条规则,这简直不可思议。李老师用了个很好的比喻。规则方法就好比厨子做菜。同样的材料和工序,菜的味道千差万别,源于厨子的技艺不同。世界上有很多不成功的规则系统,让人诟病。人们对规则方法嗤之以鼻,那是因为没见过成功的厉害的规则系统。这个系统就是李维老师的超大规则系统。凭着语言学的深厚功底,才能设计和驾驭如此庞杂的规则集合。
规则系统的好处是稳准狠,却难免召回率低。而在大数据前提下,召回率的问题可以大致忽略,准确性更为重要。所以这个系统用来做舆情分析有很好的效果也就顺理成章了。
厉害的是,李老师居然写了20多种语言的规则,真的让人不得不膜拜!规则方法写出的Parser和舆情系统,在这个世界上,恐怕也就仅此一家了。
最后,开心的得到合影一张:)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-24 23:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社