|||
准备:
1) Unicode编码-拼音对照表,http://bbs.zdic.net/thread-113888-1-1.html
2) RFC英文文档, ftp://ftp.rfc-editor.org/in-notes/tar/RFC-all.tar.gz
3) RFC中译版,http://ishare.iask.sina.com.cn/f/5274368.html?retcode=6102,需去掉中译版中的版权头,共456个文件
Unicode编码-拼音对照表用于计算全拼输入法敲一个汉字需用多少按键。
处理:编码3小时,分析1小时。由于统计方法很直接,因此不详细写出。
结果:所有文件处理成UTF8编码,总计处理456个RFC(中-英)文档对,并且无论中英文文档,都不计空白字符,不考虑人为输入差错(假定每次都输入了正确的拼音且按对了键)。
标号 |
内容 |
统计次数或计算值 |
说明 |
A |
中文RFC全拼按键总数(不含确认键) |
9420979 |
|
B |
中文RFC全拼按键总数(含确认键) |
11491722 |
假定每个汉字只需按一次确认键 |
B1 |
中文RFC全拼按键总数(整词或整句确认)【1】 |
10456350.5 |
(A+B)/2 |
C |
中文RFC总字符数 |
5187042 |
|
D |
中文RFC总汉字数 |
2070743 |
B-A |
E |
英文RFC总字符字数 |
10531372 |
|
F |
对应于中文RFC汉字的英文字符总数【2】 |
7415073 |
E-(C-D) |
G |
相同语义的中英文总字符数比值【3】 |
27.93% |
D/F*100% |
H1 |
按键次数比值-下界(中/英)【4】 |
89.4563% |
A/E*100% |
H2 |
按键次数比值-上界(中/英)【4】 |
99.2876% |
B1/E*100% |
【1】目前使用大规模联想词库的拼音输入法都支持汉字整词输入,有的甚至支持整句输入。所以这样计算是合理的,但结果通常不会小于A,除非使用智能联想功能。
【2】处理版权信息时以及译者翻译时都可能引入原文中没有的字符,所以这个结果会不够准确,但是这些内容相对于整个文档集本身而言很少,因此偏差可以忽略不计。
【3】中文描述所用字符数只有不到相应英文描述的三分之一。
【4】根据【1】,对于相同语义的文档,使用具有整词及整句输入功能的中文全拼输入时,其按键次数比值位于(H1,H2)之间。这意味着使用中文拼音输入理论上具有优势,但当考虑到个体对键盘输入的熟练程度以及实际输入情况(如总是采用双字方式的词输入,或者敲错拼音,或者说的废话比别人多),实际输入效率会有较大变化,有可能提高,但也会低于英文输入的效率。因此,利用现代拼音输入法提供的大规模词汇联想及“智能”整句输入的功能,可以显著提高输入效率(相对于同语义的英文文档的键盘输入效率)。
结论:由于手边可用的数据集只有这456份中-英文RFC文档对,所以,本文的结果只反映这个文档集的情况。由于简拼只用一个字符分别表示声母、韵母,因此使用简拼的整词、整句智能拼音输入的效率还可以更高。本文表明,在所处理的数据集中,中文(整词、整句)智能拼音输入法的输入效率高于英文输入效率。由于文言文比白话文更精练,因此文言文的输入效率会更高。当然,最好的方法是使用精练的语言,不但输入效率最高,还有助于帮助阅读者提高阅读效率。由于键盘是当前最基本的人机信息交互界面,所以,使用拼音输入法的人如果能养成整句输入的习惯,那么不但有助于自己“善其事”,还可以减少手指肌肉因频繁敲键、过于紧张导致的指头震颤情况的发生。
如使用其他资料不能得出以上结论时,请一定告知!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 01:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社