|||
【科普随笔:NLP主流的傲慢与偏见】中有些广为流传或广为采信的观点,岂止偏见,谬见是也,无需一驳,因为事实胜于雄辩 :
【偏见三】规则系统的手工编制注定其不能 scale up,无法胜任 real world application,只能做实验室里的玩具。
谬!以我们在社交媒体大数据上运行的最新系统为例(当然这不是我的功劳,是工程师的成就):
整个舆情挖掘系统由前后两个子系统组成。核心引擎是后台子系统(back-end indexing engine),用于对社交媒体大数据做自动分析和抽取。分析和抽取结果用开源的Apache Lucene文本搜索引擎(lucene.apache.org) 存储。生成后台索引的过程基于Map-Reduce框架,利用计算云(computing cloud) 中200台虚拟服务器进行分布式索引。对于过往一年的社会媒体大数据存档(约300亿文档跨越40多种语言),后台索引系统可以在7天左右完成全部索引。前台子系统(front-end app)是基于 SaaS 的一种类似搜索的应用。用户通过浏览器登录应用服务器,输入一个感兴趣的话题,应用服务器对后台索引进行分布式搜索,搜索的结果在应用服务器经过整合,以用户可以预设(configable)的方式呈现给用户。这一过程立等可取,响应时间不过三四秒。前台系统负责搜索、挖掘、整合和表达,设计成一个三层的混合后备式模型(hybrid back-off model),以求最大程度地满足不同用户的情报需求。
【偏见四】规则系统只能在极狭窄的领域成事,无法做跨领域的系统。谬!见我们开发的两款跨领域产品,回答 how 的问答系统 illumin8 和多语言社交媒体舆情挖掘的系统 ConsumerBase。
【偏见五】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。
谬!见我们开发的社交媒体舆情挖掘系统以及粤语前处理系统。
【系列姐妹篇】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社