信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

以字与以词分别为基础的分词技术思想酝酿的一个分水岭

已有 2120 次阅读 2018-5-13 10:28 |个人分类:学术研究|系统分类:人物纪事| 以词为基础的分词技术, 以字为基础的分词技术, 字本位, 词本位, 中文信息处理

     一、温故知新(离散的分头的努力终将逐步聚集成无形的合力)

      以字与以词分别为基础的分词技术思想酝酿的一个分水岭。从哲学的理性反思,到技术的实现,再进一步到科学的验证,往往是需要假以时日的。因此,做基础研究的人务必要有耐心。离散的事实最终都会聚集到一起。这时的进步就不再仅仅是技术测评和技术规范的问题了,而是会进一步上升到科学的高度。其特点就是多学科和跨学科、多领域和跨领域、多行业和跨行业、多媒体和跨媒体、多语种和跨语种,更大的突破了!-邹晓辉Geneculture

        附录:

       【果然,到了 Bakeoff-2005 分词技术就发生了巨大的变化,推翻了以前以词为基础的主流的分词方法,出现了以字为基础的全新的分词方法。到了 Bakeoff-2006 年就没有人再做基于词的分词系统了。】

        摘自:专访NLP前辈黄昌宁先生,每一阶段都是常人难以企及的辉煌 http://m.leiphone.com/news/201803/8obdCv6qsC

L0BIEN.html

        二、追根溯源(分散的努力最终将形成不期而遇的合力)

        2002年黄昌宁教授邀请我到微软研究院自然语言处理组他的办公室详细地询问我关于字与字组的关系数据库【它就是2000年我接受北京大学中文系徐通锵教授“字是汉语的基本结构单位”理论系统知道后独立做出的《现代汉语词典(基于字与字组细分的电子版)》】的情况,我系统地给他讲解了我这样的基本考虑引起了黄昌宁教授的新思考,他很高兴,和我探讨了相关的问题,其中,他还提到了对钟义信教授的信息观与智能观的看法即不同意见,虽然我们都认为计算机与自然人是两种不同类型的信息处理系统,但是,我们三个人分别代表了三种不同不同的观点:黄老师偏重计算机暨主要从自然语言处理来思考,钟老师偏重自然人暨主要从信息、知识、智能的转换角度来思考,邹晓辉偏重人机双脑协同智慧能力暨主要从融智学理论和文化基因系统工程实践双重角度来思考。那时中文信息处理的确都是基于词来做分词。黄老师肯定了我基于字做分词的想法和做法。最后,愉快地私人掏钱吃了最好的日本料理(当时人均50多元)。-邹晓辉Geneculture

        顺便说一句,2002年我还分别与冯志伟教授冯老师和易绵竹教授等也都介绍过我的字与字组的关系数据库(由于我已做出来了因此我的截图说明是图文并茂的)。同期,我还分别应邀给北京大学计算语言学研究所和清华大学计算机系自然语言处理组以及中科院语言工程研究中心与中国软件总公司机器翻译组等方面的专家领导及团队骨干也都做了讲解。

       附图(当时给黄昌宁教授看的主要是“字与字组的关系数据库”及其原理示意图,由获奖证书的时间可见我的研究成果之一斑,其它是后来陆续可视化的)

       

 



https://blog.sciencenet.cn/blog-94143-1113743.html

上一篇:慧力能三个发展阶段是人机双脑协同智慧能力的前奏
下一篇:Fundamental Law of Information: Proved by Both ……
收藏 IP: 117.61.10.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-19 22:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部