duxingren14的个人博客分享 http://blog.sciencenet.cn/u/duxingren14

博文

一个关于中文书写的倡议——空位书写

已有 4514 次阅读 2012-8-5 15:27 |个人分类:科研|系统分类:观点评述| separate, medium, normal, 中文

中文 的 自然语言处理 的 难度 高于英语 的 三大原因
一,分词 困难,中文 的 词与词之间 的 界限 没有 通过 特定符号 来 标注,需要 人脑 凭经验 来 识别判断,而 英语,单词之间 用 空格 隔开,这样,计算机 处理起来 就轻松很多;
二,词性判断 的困难,中文词语 的词性 没有 体现在 它的形式上。而英语, 形容词, 副词, 动词, 大多 在 形式上 体现 出来 了。
三,句法 困难,中文 词类 与语法功能 的 对应  是 多对多; 而 英语 词类 与语法功能 的对应 是 一对一的。
              

一个 小小的倡议: 改变 我们的 汉语书写习惯, 让汉语 变得 更简单
分词 是 中文处理中 的 第一个 大难题,要解决  这个 难题, 不断 开发 和改善 汉语分词 的算法 是一条路,改变 我们 使用 汉语的习惯 也是一条路。倘若 我们 借用 英语的 单词与单词之间 用空格分开 的特点, 用空格 隔开 汉语的 词语或短语。 小小的 书写习惯的改变,或许能让汉语变得简单,这里的简单, 一方面 是指 计算机处理汉语 更容易, 另一方面 是指 人阅读中文 变得更轻松, 并能 避免 一些 因 分词问题 而 造成 的 错误理解。如 下面的句子,你能想象 去掉空格 的后果吗?
     乒乓球拍 卖完了
     乒乓球 拍卖完了
    人类动力学 的 研究(人类动力学 是 一门学科)
    人类 动力学 的 研究(动力学 曾经是 物理学的一门 二级学科)
    使用 机器 翻译 文章 存在 一定的风险(文章是你写的)
    使用 机器翻译文章  存在 一定的风险(文章是别人写的)
    他 将来 前途无限
    他 将  来 前途无限 (前途无限 是个 KTV)

     我们且将这种 中文书写习惯 称为  空位书写
     空位书写 不但 有助于 解决 中文 词法分析的难题,也有助于 解决 句法分析的难题;不仅 能让 计算机处理中文 变得更容易, 也能让人 阅读 更轻松、理解 更准确


从没有 标点符号 到 有标点符号,从 文言文 到 白话文,中国历史上 已有的 两次 书面语的 革命, 让  汉语 变得 越来越简单、表意 越来越 精确、阅读起来越来越轻松。倘若能进步, 我们 何必 拒绝 新的改变 呢?



小改变 不影响 前后 承接, 容易 过渡。不用担心 “不兼容” 的问题
      前人能看懂 空位书写 的中文,习惯了看 空位书写  中文 的人 也能看懂  非空位书写 的中文。
      空位书写 仅仅 比 非空位书写 多了 若干个 空格,通过 计算机  很容易  将  空位书写  的 中文  转化  为  非空位书写 的 传统中文,但难以将  非空位书写 的传统中文 转化成 空位书写 的 中文,这说明  空位书写  的中文  比 非空位书写 的中文 包含 更多的信息。

空位书写  的 具体规范  还有待 建立
      有基于  词语  的空位书写
      有基于  短语  的空位书写
      还有 基于  短句 的空位书写
      也可以 是 混合式 的 空位书写


https://blog.sciencenet.cn/blog-665823-599281.html

上一篇:“民科”小议
下一篇:科学家需要注重实用吗
收藏 IP: 210.77.22.*| 热度|

1 李小文

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 21:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部