NLP是一个力气活,100% agree.
日期: 01/04/2012 15:14:51
有朋友问:
俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。
从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要求系统理解日常用语,同时也理解专业文献,自然是很大,因为每个子领域都有很多术语(术语是成语的一种)。但是应用系统并不是百科全书,即便有能力建一个大而全的海量成语库,也没有必要,其运行和维护的成本超过了应用时带来的 marginal benefits,譬如,在我们的客户情报挖掘应用中,就不需要一个巨大的医疗术语库,尽管我们实际上已经有了这个库。
日常使用的成语是多少呢?往多说,10万条该够了吧。人脑如果不借助于临时查字典,学富五车的人也不过记得住10万成语到顶了吧。10万条对于现在的系统算什么。系统一启动就全load进内存随时待命了。
立委能不能给俺们简单科普一下,你们NLP产业到底发展到哪一步了。你的技术优势是什么?今后的发展方向又如何?
这个要简单说不太容易。让我试试吧:我们的技术优势就是探索出来一条利用深度分析而抽取任何文本信息(无论主观评价,还是客观事实)的高精度、细颗粒度的方法,而业界所流行的是浅度分析 and/or 机器学习,精度和颗粒度均低一个档次,质量完全不成比例,尽管后者的覆盖面会广一些。深度分析不是我们独有的,很多实验室都有;但是把深度分析应用到大规模真实语料能做出产品来,竞争者鲜见,原因大概是门槛太高了点儿。研究家们常常不习惯这种讲求平衡艺术(balancing art)而且需要极大耐力和应变灵活性的力气活,他们所擅长的是把一个思路推向极致,试图在算法或者理论上寻求突破或不同,这也有利于他们耐以生存发展的论文发表。多数习惯于短平快出成果的理工背景的机器学习家,往往对语言的混乱度估计不足,面对silent majority 的个性现象不甚耐烦(sparse data 是他们的死敌,在语言现象中格外明显)。当然,这也不是火箭技术,总会有人赶上的,但这里有个时间差。龟兔赛跑,并非每个兔子都爱睡懒觉。时间差算是一个很大的 competitive advantage.
今后的发展方向,我只能凭感觉说了。从科学角度,弱监督的机器学习(weakly supervised learning)如果有理论和方法上的突破,可能给语言技术的应用带来崭新的局面。从实践上看,更有迹可寻的方向是建立一个机器学习和人工干预的集成交互的语言技术开发环境和平台,使得语言技术开发较少依赖于一个人的经验和平衡术,较多地决定于数据的制导。形象点儿说就是,要把中国餐馆式依赖大厨独门技术的作业方式,改变成麦当劳式(其实更高质量并且有QA保证的 In-n-Out 更加合适)的流水作业,用以保证技术开发的基本质量。
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-525929.html
上一篇:
核聚变和“炼丹术”,同样是“工程”,模式不一样下一篇:
iPad的流行带动了平板产业,也许是残缺美?