《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

已有 5678 次阅读 2013-6-28 15:56 |个人分类:立委科普|系统分类:科研笔记| NLP, 偏见, 主流, 规则系统, 谬见

【科普随笔:NLP主流的傲慢与偏见】中有些广为流传或广为采信的观点,岂止偏见,谬见是也,无需一驳,因为事实胜于雄辩 :

【偏见三】规则系统的手工编制注定其不能 scale up,无法胜任 real world application,只能做实验室里的玩具。

谬!以我们在社交媒体大数据上运行的最新系统为例(当然这不是我的功劳,是工程师的成就):

整个舆情挖掘系统由前后两个子系统组成。核心引擎是后台子系统(back-end indexing engine),用于对社交媒体大数据做自动分析和抽取。分析和抽取结果用开源的Apache Lucene文本搜索引擎(lucene.apache.org) 存储。生成后台索引的过程基于Map-Reduce框架,利用计算云(computing cloud) 200虚拟服务器进行分布式索引。对于过往一年的社会媒体大数据存档(约300亿文档跨越40多种语言),后台索引系统可以在7天左右完成全部索引。前台子系统(front-end app)是基于 SaaS 的一种类似搜索的应用。用户通过浏览器登录应用服务器,输入一个感兴趣的话题,应用服务器对后台索引进行分布式搜索,搜索的结果在应用服务器经过整合,以用户可以预设(configable)的方式呈现给用户。这一过程立等可取,响应时间不过三四秒。前台系统负责搜索、挖掘、整合和表达,设计成一个三层的混合后备式模型(hybrid back-off model),以求最大程度地满足不同用户的情报需求

【偏见四规则系统只能在极狭窄的领域成事,无法做跨领域的系统

谬!见我们开发的两款跨领域产品,回答 how 的问答系统 illumin8 和多语言社交媒体舆情挖掘的系统 ConsumerBase。

【偏见五规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档

谬!见我们开发的社交媒体舆情挖掘系统以及粤语前处理系统。


【系列姐妹篇】

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流偏见之二,所谓规则系统的移植性太差】

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-703513.html

上一篇:【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】
下一篇:【社媒挖掘:大数据时代的危机管理】
收藏 IP: 192.168.0.*| 热度|

3 文克玲 陈辉 李宇斌

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 15:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部