随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

Token为什么翻译为词元?

已有 187 次阅读 2026-2-26 21:53 |个人分类:Computational Linguistics|系统分类:观点评述

Token(词元)术语详解:来源、内涵、定义

Token译为词元,是语言学、计算语言学、自然语言处理(NLP)领域的核心基础术语,其内涵从符号学、理论语言学的原生概念,逐步延伸至计算语言学、大模型技术场景,最终形成了国内学界统一的“词元”译法。而Type与Token是相伴而生的一对经典二分术语,是现代语言学、语料库语言学、NLP技术的底层分析工具。

一、Token的术语源头与中文译法演变

1. 英文词源与跨学科起源

Token的英文原生词源为古英语tācen,本义是符号、标记、信物、表征,核心内涵是“承载特定意义的具象化符号实例”。

该术语正式成为学术概念,最早源于美国逻辑学家、符号学创始人查尔斯·桑德斯·皮尔士(Charles Sanders Peirce) 在1906年的符号学理论体系。皮尔士将符号分为两大范畴:Type(类型) 是抽象的、规约性的符号原型;Token(实例) 是Type在具体场景中的物理实现与个体实例,这是Type-Token术语对的正式起源。

随后,这对术语被结构主义语言学吸纳,与索绪尔提出的语言(Langue,抽象的社会规约性语言系统)/言语(Parole,具体的个人语言使用行为) 二分体系高度契合,成为理论语言学分析语言符号的核心工具。

2. 计算语言学术语type-token

20世纪中期,随着机器翻译、语料库语言学兴起,该术语进入计算语言学领域,成为文本处理的基础概念,字型、字例,词型、词例,句型、句例等各个层级的语言单位在进行计量时,均使用了type-token这对术语。

以中文句子为例:“我吃苹果,我吃梨。”

  • 分词后的Token序列:我、吃、苹果,我、吃、梨。

  • Token总数(形符数):6个;

  • Type总数(类符数):4个(去重后为:我、吃、苹果、梨);

3. 大模型时代的token

2018年预训练语言模型兴起后,Token进一步成为大语言模型的核心底层单元,进入大众视野。

在大语言模型中,tokenization词元化)是将一个文本分割成多个 token 的过程。通常,token 是指文本中具有独立意义的最小单位,可以是字符、单词、符号、数字或子词。

  • 词元化过程:词元化是文本预处理的重要步骤,在这一步中,文本被分割成一个个的 token,通常包括:

    • 字符:如 a,b,c, 你,我

    • 单词:如“apple”,“dog”,“run”

    • 标点符号:如逗号、句号、问号等

    • 数字:如“123”,“45.67”

    • 子词(subwords):在一些先进的 NLP 模型(如 BERT、GPT)中,单词可能会被进一步拆分为更小的单元(例如,字节对编码(BPE)技术拆分“unhappiness”为“un”和“happiness”两个子词),实际上接近于“语素”,但是工业界对“语素”不熟悉,且有时甚至比英语的语素还小,故未能采用。

二、 中文译法的演变:从多译并存到“词元”的规范统一

在中文语境中,Token的译法经历了长期的演变,不同学科场景曾出现多个译法,最终在NLP/大模型时代形成了“词元”的学界共识:

译法

适用场景

局限性

形符

传统语料库语言学(与“类符Type”对应)

仅能体现“文本形式实例”的属性,无法覆盖计算语言学中“最小处理单元”的核心内涵

例符/标记

理论语言学、符号学

过于泛化,无法锚定语言处理场景的专属含义,易与通用的“标记”概念混淆

令牌/记号

计算机编译原理、密码学

完全脱离语言学属性,与NLP场景的内涵无关,易造成认知偏差

分词/词片

大模型大众科普语境

属于概念误用,分词是生成Token的过程,而非Token本身;子词只是Token的一种形态,无法覆盖其全部内涵

词元

计算语言学、NLP、大模型技术(当前规范译法)

精准锚定了“语言处理的最小基本单元”的核心内涵,符合中文科技术语的构词习惯,是当前全国科学技术名词审定委员会、国内学界统一的规范译法

三、 译为“词元”的核心理由与合理性

“词元”能成为最终的规范译法,核心在于其完美适配了Token在语言学与计算领域的双重内涵,解决了其他译法的局限性:

(1)贴合核心属性:锚定“最小基本单元”的本质

“元”在中文科技术语中,本义是“最基础、不可再分的基本单元”(如音元、语素元、数据元)。在NLP场景中,Token是文本处理、模型计算的最小不可再分单元,无论其形态是完整的词、子词、单个汉字/字符,“元”字都能精准概括其“基础单元”的核心属性,完美适配从“词级分词”到“子词分词”的技术演变。

(2)区分场景歧义:专属锚定语言学/NLP场景

用“词元”替代“标记、令牌、例符”等泛化译法,专门划定了该术语在语言处理场景的专属含义,避免了与编译原理、哲学、日常语境中的Token概念混淆,形成了清晰的术语边界。

(3)兼顾理论与应用:覆盖从语言学到工程的全场景

既保留了“词”的语言学本源,体现其作为语言符号的本质;又通过“元”字,适配了工程场景中“最小计算单元”的技术内涵,实现了理论语言学与计算语言学的术语统一。

(4)符合术语规范:国内学界与官方机构的统一共识

全国科学技术名词审定委员会在《计算机科学技术名词(第三版)》《语言学名词》中,已将NLP/计算语言学场景下的Token规范译为“词元”;ACL、EMNLP等顶会的中文译稿、国内高校计算语言学专业教材,均已统一采用“词元”译法。

(5)缺陷与不足

type和token在计算语言学中,(类)型和(实)例已经是非常成熟的翻译用法。单独将token翻译为词元,其实有混淆类型和实例的危险性!

主要原因在于,目前大语言模型的tokenization的工作,做到了sub-word(子词)的层级,用“字”或“词”都不能直接对应,实质上接近“语素”。但是“语素”和“子词”,一个过于语言学,一个不够学术化,而用接近于“词”的“词元”来表示,大家感觉最为贴合。其实在不同的模型系统中,这些token对应的type才更重要,到底使用哪种层级的语言单位。

所以,英语的token如果不翻译没有问题,英语中本来就是为了弱化单位的类型,而只计量实例。到汉语使用“词元”这个术语,在今天更接近“子词”这个type(类型)的语言单位,而在token(实例)上反而缺失了对应术语,容易引起理解上的混乱。

因此,如果给它一个更好的翻译,“实例”没有“词”的意味,也许“词元实例” 是更贴切的,就是冗长了一些。

四、常见认知误区澄清

误区1:Token就是“分词”,大模型里的Token就是中文的“字”

澄清:Tokenization是将文本拆分为Token的过程,而非Token本身;大模型中的Token形态多样,中文场景下可能是单个字,也可能是双字词、多字词、子词片段,并非固定为“字”。Token的核心是“模型词表中的最小计算单元”,而非单纯的语言学分词结果。

误区2:Type就是“词”,Token就是“词的出现次数”

澄清:Type的范畴远大于“词”,它可以是词、语素、字符、标点符号,甚至是模型学习到的固定短语片段;Token也不是单纯的“次数”,而是每一次具体出现的实例本身,次数只是Token的统计属性。

误区3:大模型时代,Type-Token的传统语言学定义已经失效

澄清:大模型技术只是延伸了Token的工程内涵,并未否定其原生的语言学定义。模型词表中的每一个条目,本质就是一个Type;文本输入、生成过程中每一个出现的单元,就是对应Type的Token实例。Type-Token的二分逻辑,依然是大模型语言处理的底层语言学根基。



https://blog.sciencenet.cn/blog-39714-1523571.html

上一篇:宇航人文发凡
收藏 IP: 222.95.83.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-27 00:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部