twhlw的个人博客分享 http://blog.sciencenet.cn/u/twhlw

博文

真正智能的关键在于…… 精选

已有 7549 次阅读 2025-1-30 10:18 |个人分类:2025|系统分类:科研笔记

在自然语言处理(NLP)中,token指的是文本中的基本单元,通常是经过分词处理后的词、符号或字符。token化(tokenization)是NLP的一个基础步骤,旨在将文本转换为模型可以处理的离散单元。这些token为后续的语义分析、情感分析、机器翻译等任务提供了基本的数据单位。

但是,当我们将“token”概念扩展到人类智能或意图时,token的含义也变得更为抽象和深刻。虽然人类的思维与自然语言的表达有很大不同,但可以类比地理解为人类大脑也将信息“分解”成基本单元,来帮助理解和决策。这些“基本单元”可以是认知过程中产生的某些元素、概念或符号,用来表示人类的意图、目标、记忆或理解。

人类在进行认知活动时,往往通过将信息分解成更小的认知单元(如图像、符号、记忆片段等)来进行处理。例如,当我们理解一段话时,我们的大脑会从中提取出一个个“认知token”,这些token有助于我们理解句子的意思,并通过推理得出结论。在人类沟通中,我们的意图往往通过语言表达出来,而这些意图也可以被视为“tokens”,当你说“我要吃晚餐”,你的意图(即“吃晚饭”)就是一个token。而在更复杂的场景中,多个token可以结合成一个更高层次的意图(例如,“我想去食堂吃晚饭”)。人类在做决策时,通常会从大量的信息中提取关键信息单元,如在面对复杂选择时,人们会筛选出有价值的元素(如价格、时间、效果等),这些元素在某种程度上也可以看作是决策过程中的token,帮助个体做出判断和选择。研究发现,情感和动机可以通过大脑的特定模式和神经活动呈现,而这些情感动机的表征也可以看作是“token”,当我们体验到喜悦时,大脑中会激活某些特定的区域,类似于NLP中token化的处理过程。情感的表达和理解往往依赖于这些token的识别与反应。

相比之下,NLP中的token通常是离散的、明确的语言单位,如单词、字符或符号。而人类智能中的token可能是更抽象的认知单元,可以是情感、动机、概念、目标等较为复杂的元素。尽管人类智能的认知和处理机制与NLP中的处理方式不同,但“token”的概念仍然可以作为一个类比,帮助我们理解信息如何从复杂的环境或输入中提取出基本单元进行处理。该类比也揭示了NLP与人类认知的一些相似之处,尤其是在信息处理和表达意图的过程中。

一、人类的token与机器的token

在自然语言处理(NLP)中,“token”指的是文本中的一个基本单元,可以是单词、符号或字符,通常是经过分词处理后的部分。

1、人类的 token

对于人类来说,token 通常指的是在日常语言交流中的一个“词”或“单位”,例如在英语中,"apple"、"car"、"run" 这样的单词就可以视为token。在中文中,token 则可能是一个汉字或词语,分词处理会把“人类的token与机器的token”划分为若干个词语token(如“人类”、"token"、“与”、"机器"、"token"等)。

2、机器的 token

机器在处理文本时,token 也是指通过分词算法将文本切分为的单位。这些单位可以是单词(如 "apple"、"car")、词组(如中文的“人工智能”被视为一个token)、

字符(在某些语言处理中,字符可能作为token,比如在处理中文或其他表意文字时,一个字符通常会作为一个独立的token)。在自然语言处理的上下文中,机器处理文本时会将句子或段落转换为一系列的tokens进行分析、训练或推理。

3、二者的区别

人类在语言理解中处理的token比较灵活,语境和含义对于我们来说很自然;机器则依赖于规则或统计模型来切分和理解token。机器的token的粒度可以是单个字符、单个单词,甚至更大的单位(如短语或子句),这取决于分词器和算法。人类理解一个token的含义时,往往能根据上下文理解其真正意义,机器在处理时则需要依赖特定的算法或预训练模型来推断。概括来说,“token”在不同的语境下可能有所不同,特别是在计算机科学与语言学交叉的领域,它成为了机器理解语言的重要工具。

二、事实的token与价值的token

“事实的 token”与“价值的 token”是两个相对抽象的概念,通常不是在同一语境下讨论的,但我们可以从不同的角度尝试解释它们。

1、事实的 token

“事实的 token”可以理解为承载事实信息的基本单元。在信息处理中,事实代表了客观的、可验证的事物或事件。在自然语言处理中,事实的token 可能是表示实际事件的词汇,如“2020年发生了新冠疫情”中的“新冠疫情”。也可以是某个数据点,比如某个公司的财务报告中的“去年增长了10%”。这些 token 直接承载着事实的内容,是具体且具有明确含义的,不依赖于主观看法或价值观的判断。

2、价值的 token

“价值的 token”则是指与情感、主观看法、道德判断或文化标准相关的单位。它并不单纯地反映事实,而更多的是反映了社会或个体的价值观念。在对话或文本分析中,价值的token可能是一些词汇,它们体现了特定的立场、情感或道德取向。例如,“环保”、“公正”、“自由”等词汇传达了一种价值观。在经济学中,价值token可能指代货币或其他能够体现交换价值的事物,比如“比特币”作为数字货币,是一个具有特定价值的token。这些token体现了价值观、情感或道德判断,它们的意义常常需要从特定的文化、历史背景或社会语境中来理解。

3、两者之间的不同之处

事实的token是中立和客观的,主要反映已知、可验证的事实,而价值的token则体现了情感、立场和社会文化背景。事实的token传递信息,帮助我们理解“是什么”(being),而价值的token更多是表达观点或情感,反映“应该是什么”或“想要什么”(should)。在数据分析和自然语言处理中,事实token可能更容易被量化、验证和归类,如“今天下雨了”,“火星有水”,而价值token常常涉及更复杂的情感分析或主观评判,如 “公平”、“诚信”,“人权”。总体来看,事实的token侧重于传递客观信息,而价值的token则侧重于表达个人或集体的社会价值观。

三、计算的token与算计的token

“计算的token”和“算计的token”虽然看起来相似,但它们的含义和应用场景有所不同。

1、计算的token

“计算的token”通常出现在数学、科学或信息处理等领域,指的是在某个计算过程中,用于进行数值计算或信息处理的基本单位。在自然语言处理中,token是指文本中被分割出来的基本单元(通常是词语或符号)。在计算中,这些token可能代表数据、符号、变量或其他信息,能够被用于运算或处理。例如,在一个数学表达式中,token可以是:数字,如“2”、“3.14”;运算符,如“+”、“-”、“*”;变量,如“x”、“y”;在编程中,token是代码解析过程中被识别的最小单位,如关键词、标识符、操作符等。在机器学习中,计算的token可能是输入数据集中的特征值。在算法中,计算的token则是程序处理过程中需要计算的数值、变量等。

2、算计的token

“算计的token”则更多涉及到对某种情境或结果进行有目的、策略性考虑的过程。算计通常指的是对结果的预测、规划或有意图的计算,它带有一定的“目的性”和“精心设计”的意味。与“计算”不同,“算计”往往带有某种程度的思考、谋划和策略,甚至可能涉及到某种“计算”背后的动机或目的。“算计的token”可以理解为某种在决策、权衡、评估等场景中,通过考虑不同因素而得出的决策点或标记。它可能代表了一个人在做决策时所采取的策略或步骤,往往与某种复杂的分析和权衡相关。在游戏理论中,“算计的token”可能代表玩家在博弈过程中为了最大化自己的利益所采取的策略。在商业或政治决策中,“算计的token”可以代表在多个利益相关方之间权衡后的关键决策点。

3、两种token的异同

计算的token通常是中立的、客观的,代表数值或符号本身,而算计的token则带有策略性和目的性,涉及到有意图的思考和计划。计算的token广泛应用于数学、编程、数据处理等领域,而算计的token更多出现在决策、战略、博弈等需要权衡和策略的领域。算计的token通常带有某种情感色彩,可能有“精心谋划”或“心机”的意味,而计算的token则是客观的、没有主观看法的。例如:

1)计算的token:在一个数学公式“2 + 3 = 5”中,“2”、“3” 和“+”就是计算的token。

2)算计的token:在一个政治策略的讨论中,“让步”、“联盟”或“交换条件”可以看作是算计的token,代表了某种策略或决策点。

简言之,“计算的token”侧重于数值或信息处理的客观层面,而“算计的token”则侧重于策略和决策的主观层面,更多的是有关如何通过计算达成某个目标或结果。

四、态势感知的token与势态知感的token

表面上看,“态势感知的token”和“势态知感的token”差不多,但实际上在语义和语用上有着显著的差异,它们都涉及到某种形式的观察、理解和反应,但重点和表达方式有所不同。我们可以尝试从其构成和语境中去进一步区分。

1、态势感知的token

“态势感知”(Situational Awareness)通常指的是对当前环境和局势的理解,尤其是在动态变化的条件下,能够及时捕捉到信息并做出反应。在军事、应急管理、决策科学等领域,态势感知非常重要,因为它帮助决策者理解复杂环境中的各种变量,并对未来的变化做出预测和反应。

在“态势感知的token”中,“token”可能代表在某一复杂态势下获取的重要信息单元,这些信息单元通过传感器、数据流、情报等方式被收集并传递,用来帮助构建对当前局势的全面理解。通常,这些信息单元会包括以下内容:

1)实时数据:如天气、敌情、市场动态、环境变化等。各类事件或活动的发生和发展。关键指标或信号,用于评估当前局势的安全性、稳定性或可预测性。

2)应用场景:在战场上,通过各种传感器、侦察设备、人员情报和卫星图像收集的数据作为“态势感知的token”,帮助指挥官做出决策。在自然灾害或突发事件中,快速获取现场数据(如灾区气象、损毁情况等)作为“态势感知的token”,帮助决策人员制定应急方案。在市场环境分析中,经济数据、消费者行为等也是态势感知的token,帮助分析市场动向。

2、势态知感的token

“势态知感”看起来像是对“态势感知”做了一种反转式的表达,但它的意思可以更侧重于“知感”本身的方式、状态或方法,表达的是对于一个“势态”背后的“感知”过程的深入理解,强调的是如何通过敏锐的洞察力、观察力等方式来感知或识别局势中的潜在变化。“势态知感的token”可以理解为某个局势背后潜藏的、需要被感知的细节或信号。在这种语境下,“token”可能是指那些在一个特定情境下,由观察者通过细致的感知或预判而捕捉到的关键信号或迹象。

在某些心理学研究或行为学中,"势态知感的token"可能是指个体通过细微的社会互动、情绪变化等信号直觉、知觉到的潜在社会局势。在复杂的文化现象中,某些隐含的社会趋势、价值变化等也可能被看作“势态知感的token”,指的是通过深入分析文化环境感知到的关键信息。

3、异同

“态势感知的token”侧重于从外部获取信息,通过具体的信号、数据、事件等构建对局势的理解。“势态知感的token”更侧重于知觉过程本身,强调如何通过敏锐的观察或洞察力去捕捉到潜在的变化或趋势。“态势感知的token”多用于军事、应急响应、商业决策等领域,涉及的是具体的、外部的数据信息。“势态知感的token”则可能更多出现在心理学、社会学、文化研究等领域,关注的是感知和理解的细微差别。在许多情境中,两者常常不是独立的,而是混合在一起的。

1)态势感知的token:在军事战场上,敌军的动向、地形变化、天气信息等,都可以作为“态势感知的token”,帮助指挥官做出战略决策。

2)势态知感的token:在政治谈判中,某一方代表的语气变化、肢体语言、微表情等,可能被视为“势态知感的token”,代表着潜在的态度或情绪的变化。

总的来说,态势感知的token侧重于通过外部数据或信息来识别和理解局势,而势态知感的token则更侧重于对局势中潜在变化的敏感捕捉和深度理解。如何恰当的混合使用更是兵棋推演及其它决策系统的关键。

五、人机环境系统智能中的token

在人机环境系统智能(Human-Machine Environment Systems Intelligence,简称HME-SI)中,“token”通常指的是系统中用于表示、传递或处理信息的基本单元。这些token可能代表各种类型的数据、信号、指令或状态信息,通过它们的传递和处理,系统能够实现感知、推理、决策等智能功能。在人机环境系统智能的框架下,token的具体应用场景可以包括以下几种形式:

1、数据表示与传输

在智能系统中,token往往代表着某种形式的数据或信息单元。它们用于系统之间的数据传输和处理。在人机交互中,token可能是系统接收到的用户输入、传感器数据、环境变化信息等。通过这些token,系统可以感知外部环境,并据此作出响应。在自动驾驶系统中,token可以代表来自摄像头、激光雷达等传感器的原始数据。这些数据会被系统接收并处理,以便做出驾驶决策。在智能家居系统中,token可以是家庭环境的各类数据(如温度、湿度、光照等),系统通过这些token调整家庭设备(如空调、灯光等)来满足用户需求。

2、知识表征与推理

在高级智能系统中,token还可以代表某种知识单元,这些知识可以是规则、模型或决策逻辑。通过对这些token的处理和推理,系统能够进行更复杂的决策和规划。在智能助手系统中,token可以代表用户的需求或意图。当用户询问某些问题时,系统通过对这些token的理解和推理,提供适当的回答或执行相应的动作。在环境监控系统中,token可能表示对环境状态的不同描述(如空气质量等级、污染源识别等),这些token经过推理后帮助系统做出污染预警和资源调配决策。

3、交互与反馈

在人机交互系统中,token不仅是输入信息的载体,也是反馈和响应的桥梁。通过token的交换,用户和机器之间能够进行信息流通,从而实现更流畅、更自然的交互。在语音识别系统中,token可以是用户的语音输入被转化为文本的结果。系统通过这些token来理解用户需求,并返回语音或文本反馈。在虚拟现实(VR)或增强现实(AR)系统中,token可以代表用户与虚拟环境的交互数据(如手势、位置等)。这些token帮助系统做出即时的视觉反馈和环境变化。

4、状态更新与控制

在复杂的环境中,token还可以用于表示系统的状态或控制命令。这些token帮助系统管理当前的状态、行为和操作,使得系统能够做出实时的调整和控制。在机器人控制系统中,token可以表示机器人的当前位置、速度、姿态等状态信息。系统根据这些token调整机器人的运动路径或行为。在智能制造系统中,token代表生产线各个环节的实时数据(如机器状态、生产进度等)。这些token帮助系统优化生产调度和故障检测。

5、多模态融合

在一些多模态智能系统中,token可能不仅限于一种数据类型,而是来自多个来源的数据进行融合。例如,语音、图像、文本、传感器数据等都可以转化为token,并融合在一起,为系统提供全面的理解和响应能力。在多模态医疗诊断系统中,token可以代表病人的医疗记录、影像数据、实验室结果等不同类型的信息。系统通过对这些token的融合处理,提供综合的诊断建议。在多模态客服系统中,token可以是来自客户的语音、文字输入、以及表情识别的数据。系统通过分析这些token,生成个性化的回复。

概括而言,在人机环境系统智能中,token充当着信息传递、数据处理、知识表示和决策支持等多重角色。它是智能系统理解、推理、反应和与用户交互的基础单元。通过精确设计和处理这些token,智能系统能够实现高效的信息流动与智能决策,最终提升系统的整体智能化水平。简单来说,token在人机环境系统智能中的作用是实现系统对外部环境的感知、理解、推理和反应,从而帮助系统更好地与人类用户互动、控制环境并优化决策过程。

未来,真正智能的关键不仅仅在于AI——这种人工的机器智能,更在于把人、机、环境有机融合在一起的人机环境生态系统智能……

Screenshot_20240518_072312.jpg



https://blog.sciencenet.cn/blog-40841-1470974.html

上一篇:真正的智能与那只蝴蝶
下一篇:DeepSeek的原罪在于打破了一个神话
收藏 IP: 39.144.194.*| 热度|

4 李剑超 郑永军 许培扬 王启云

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

1/0 | 鎬昏:0 | 棣栭〉 | 涓婁竴椤� | 璺宠浆

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-2-19 06:35

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部