《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

曙光在眼前,轻松过个年

已有 3095 次阅读 2013-2-9 04:34 |个人分类:立委科普|系统分类:生活其它|关键词:NLP,中文处理,舆情挖掘| NLP, 中文处理, 舆情挖掘

       

QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良
日期: 02/08/2013 13:38:01


比起我们业已成熟的英文系统,QA 表明:

precision (查准率)已经基本达到英文系统的查准率水平;
recall (查全率)达到英文查全率的三分之二左右。

要知道,英文系统开发了n年,英文本身处理难度比起博大繁难的中文也低一些,much more tractable.

我们做多语言,本来就是基于下列的 field feedback / assumption:

英文的系统及其data quality 是一个已经 sold 的 concept/product,无需再论证,因为客户已经接受,而且市场上找不到更好质量的。有别的方面暂时强于我们的,比如,content sources,比如应对网络垃圾,比如与结构数据或meta data整合,比如与企业解决方案的无缝连接,比如在某个特定 domain 里面的优化,等等,但是 data quality,老子天下第二(第一自然是上帝)。多语言项目上马就是要重复英语的成功。

而中文,我们遵循实用主义原则奋战快一年,已然接近英文质量了。照目前的研发速度,保守的估计,到今年年底,中文系统质量会全面达到英文系统的水准。

中文社会媒体深度舆情挖掘不再是遥远的梦。

饮水思源,这一切首先归功于林彪元帅的教导。林元帅说的是:要带着问题学,活学活用,急用先学,立竿见影,在用字上狠下功夫。毕竟是不世出的天才元帅,说出来的话就是不同凡响。

再有就是邓大人的影响。邓大人是实用主义大师,其猫论是一切实际工作的指南,是反对理论洁癖的利器。

遵循林元帅邓大人的教诲,就是胜利。急用先做,立竿见影。一分耕耘,十分收获,实用主义万万岁。

过年罗,过大年罗。

               

立委名言:曙光就在前面,同志可以过年。


【置顶:立委科学网博客NLP博文一览(定期更新版)】




http://blog.sciencenet.cn/blog-362400-660666.html

上一篇:学会的常态应该是什么样?
下一篇:比较一项工作的成就也需要有多个视点

5 曹聪 刘全慧 武夷山 张玉秀 张婷婷

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-15 01:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部