YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

重磅报告:DEEPSEEK 只是 DIKWP 语义空间交互提升效率的一个案例

已有 826 次阅读 2025-1-29 14:24 |系统分类:论文交流

重磅报告:DEEPSEEK 只是 DIKWP 语义空间交互提升效率的一个案例

段玉聪(Yucong Duan)

国际人工智能评价网络 DIKWP 标准化委员会(DIKWP-SC)

世界人工意识 CIC(WAC)

世界人工意识大会(WCAC)

(电子邮件:duanyucong@hotmail.com

第一部分:引言与背景

1.1 DIKWP 模型与 3-No 问题的时代需求

当下数字经济的快速发展,引发了对大型语言模型(LLM)、强化学习(RL)、知识图谱以及混合智能等众多技术的关注与应用。其中,小微企业、跨机构组织乃至整个社会都面临“不完整(Incomplete)、不一致(Inconsistent)、不精确(Imprecise)”的 3-No 问题——开放世界场景下,任何数据或知识都有可能出现缺失、冲突或模糊。而传统的信息处理方法往往难以在多源异构、主客观融合的情境中应对这种高不确定性。

为此,段玉聪教授提出了基于DIKWP(Data-Information-Knowledge-Wisdom-Purpose)的“五层语义模型”与不确定性消解方法,辅之以一系列“语义数学”工具(RDXS、EXCR、ESCR、PUCR 等),旨在从数据、信息、知识、智慧、意图五个层面统一处理面向不同主体的资源、经验、目标与价值诉求,从而更好地化解 3-No 问题。

1.2 DEEPSEEK 技术的兴起

在全球范围内,各种新兴 AI 模型层出不穷。近年来,围绕大模型的训练、推理和知识蒸馏(Distillation)技术不断演进,引发了社会对“AI 自主学习”和“强化学习不依赖监督微调”等话题的高度关注。DEEPSEEK 便是其中较为典型的一个项目/产品线,其使用了大规模强化学习(RL)、自监督预训练、以及一系列在 MoE(Mixture-of-Experts)与 ML(Memory/Latency)优化等技术上的创新,展现出在数学推理、代码生成以及语言推理任务上的强大性能。

  • DEEPSEEK-R1-Zero:不依赖传统“监督微调(SFT)”直接用 RL 促成自发现、自演化的推理能力;

  • DEEPSEEK-R1:进一步在冷启动数据的基础上进行多阶段训练,以增强模型在语言可读性、推理持续化以及人类偏好对齐方面的效果;

  • DEEPSEEK-V2 / V3:在 MoE 架构下对通信、路由、内存占用做了大量优化,使得大规模模型的训练与推理成本显著下降。

1.3 DEEPSEEK 与 DIKWP:一个“案例”的意义

虽然 DEEPSEEK 系列在大模型领域引发了广泛讨论,但从段玉聪教授的观点来看,“DEEPSEEK 技术只是 DIKWP 语义空间交互提升效率的一个示例案例”。换言之,DEEPSEEK 中所体现的大规模自学习语义推理多目标对齐等行为,恰好和 DIKWP 模型中所描述的“主客观融合”“语义生成”“意图驱动”机制相呼应。它并不是一个与 DIKWP 平行或竞争的“对立模式”,而更像是DIKWP 体系在实践中的一个落地或印证

接下来,我们将从DIKWP 语义数学的角度切入,分析 DEEPSEEK 作为一个先进 LL/RL 框架,如何体现了D、I、K、W、P 五层要素之间的动态交互与不确定性消解;同时,也会探讨 DEEPSEEK 技术创新在**存在计算与推理(EXCR)、本质计算与推理(ESCR)以及意图计算与推理(PUCR)**方面潜在的案例意义,以说明为什么它只是“一个案例”,而不是“最终的或唯一的”实践形式。

第二部分:DIKWP 核心思想与不确定性消解框架

为了更好地论述 DEEPSEEK 与 DIKWP 的关系,需要先简要回顾 DIKWP 在3-No 问题背景下的核心主张和技术路径。

2.1 DIKWP 五层语义与 3-No 关系

  1. Data(数据):处于最底层、最原子化的形式,往往表现为采集或存储下来的原始数值、文本或多模态信号。但在开放世界中,这些数据可能存在不完整(采样缺失、口径不统一)或不一致(多源冲突)及不精确(测量噪声等)的问题。

  2. Information(信息):通过对数据的“差异性”或“对比性”加工,形成更有意义的结构。然而在多主体交互中,信息也可能相互冲突、不一致,或者缺少上下文导致不完整、模糊等。

  3. Knowledge(知识):将信息以更系统化、结构化的方式加以整合,形成可推理、可迁移的知识体系。但在跨组织或跨语义域时,不同知识库之间会产生逻辑冲突或概念定义不精确、时效性不一致等问题。

  4. Wisdom(智慧):在更高层次中,融合社会价值观、伦理道德甚至人文关怀的复杂决策方式。不仅要处理事实层面(D/I/K),还涉及多种价值判断与风险偏好,一旦多源价值观存在差异时,就可能形成新一轮的 3-No 问题。

  5. Purpose(意图):对整个流程赋予目标导向、策略偏好或道德指令。意图既带有主观成分,也往往在不同主体间出现不一致或不精确;因此,“意图层”本身也存在不确定性,且会驱动下层的资源整合与处理逻辑。

总之,DIKWP 切分了从底层数据到高阶决策意图的五个语义层,每一层都可能面临 3-No 中任意一种不确定性,从而形成多元的主客观交互。而针对这些不确定性,DIKWP 引入了语义数学和推理机制(RDXS、EXCR、ESCR、PUCR)以实现跨层级的统一处理。

2.2 语义数学与 RDXS:消解不确定性的元模型

  1. RDXS(Relation-Defines-everything in X-Space)

    • 将“关系”视为核心要素,所有数据、信息、知识、甚至智慧与意图都能在某个关系结构中得以表达。

    • 当不同主体对同一概念或事实有不同说法时,可以将其抽象为“关系-差异”,并标注不完整(空值)、不一致(冲突)、不精确(模糊描述)等标签,以便后续推理。

  2. 不确定性标签机制

    • 在 RDXS 中,对每个节点或边都可赋予“3-No”标签,如 0/1/2/3 表示不确定性强度或类别;

    • 这样,任何语义冲突或缺失都能通过图谱化方式进行显式记录,后续通过EXCR/ESCR进一步处理。

2.3 EXCR、ESCR 与 PUCR:核心推理机制

  1. EXCR(Existence Computation & Reasoning)

    • 判断某一信息、事实或知识在系统内是否“确定存在”、并与其他存在信息相容。

    • 侧重对数据或知识的可靠性验证、跨源一致度评估。

  2. ESCR(Essence Computation & Reasoning)

    • 更聚焦“本质语义”的深层剖析,解释冲突产生的根源是概念定义差异,还是逻辑矛盾,或是主观价值偏好之别。

    • 多用在信息-知识-智慧层面,对复杂、抽象的领域概念加以辨析与归并。

  3. PUCR(Purpose Computation & Reasoning)

    • 将主体或多方意图纳入推理过程,使得系统能够基于业务目标、道德或价值约束对多种方案进行优选或折中。

    • 常在“智慧(W)”与“意图(P)”层发挥作用,贯穿数据/信息/知识的处理逻辑。

第三部分:DEEPSEEK 的技术特点与关键创新

本部分从 DEEPSEEK 公布的V2 / V3(以大规模 RL 与 MoE 架构为主)以及R1 / R1-Zero(重点在纯强化学习挖掘推理能力)两个维度,简述其主要技术亮点和创新做法,进而展开它们与 DIKWP 思想的相互映照。

3.1 DEEPSEEK-V2 / V3:MoE、载入效率与模型蒸馏

  1. MoE(Mixture-of-Experts)

    • 传统单体模型一次前向传播激活所有参数,造成训练和推理成本居高不下;MoE 则在不同输入场景只激活部分专家网络,这在跨领域、多任务的场合可显著降低无效计算。

    • DEEPSEEK-V2/V3 通过改进负载平衡与路由策略,使训练与推理时的通信开销下降,且保留了较好的精度。

  2. DeepSeekMLA(多头潜在注意力)

    • 通过压缩 key-value 存储方式,减少大模型在推理时的内存占用,降低硬件门槛。

    • 这些硬件层级的优化为后续多轮 RL 与自适应训练提供了可能,使得“强化学习 + 大模型”成为可行的高效率组合。

  3. 模型蒸馏(Distillation)

    • 将较大模型(例如 70B 参数量)在各种推理任务中产生的输出(尤其是链式思考过程/Chain-of-Thought,CoT)收集起来,用以训练或微调更小的模型(7B、14B、32B 等)

    • 这与 DIKWP 中的“知识复用”思路相通——把较高层次的知识或智慧结构移植到更小体量的系统里,实现性能/成本之间的平衡。

3.2 DEEPSEEK-R1-Zero / R1:不依赖监督微调的强化学习

DEEPSEEK-R1-Zero

  1. 纯 RL 不依赖 SFT:在许多 LLM 的范式中,强化学习往往是与人类反馈(RLHF)结合使用,而 R1-Zero 则尝试直接用 RL 去探索数学推理、代码生成或逻辑推理的最优解。

  2. 自发生成长 CoT(Chain-of-Thought):在 RL 训练激励下,模型自发形成长的思考链条,出现所谓的“Aha Moment”,说明当有合适的激励(正确答案 + 合适的思考格式)时,模型能自己学会分步骤地解决问题。

  3. 问题:在没有人工指导的情况下,R1-Zero 也出现可读性差、语言混杂等副作用,说明纯 RL 仍缺乏对人类可理解语义的显式对齐——这恰恰呼应 DIKWP 中所说的“W(智慧)与 P(意图)层”的价值和必要性:如果缺乏更高层次的目标或沟通规范,模型所展现的内部思考形式不一定与人类期望的清晰表达重合。

DEEPSEEK-R1

  1. 引入冷启动数据和多阶段训练:为解决 R1-Zero 的可读性与语言混乱问题,DEEPSEEK-R1 加入部分监督数据(SFT)并在 RL 过程中多次插入校验和拒绝采样环节,以对齐到更人类友好的表达模式。

  2. 性能:在数学、代码和推理任务上与行业领先的 OpenAI-o1 相当。

  3. 对 DIKWP 的印证:R1 系列证明了一个核心事实——只要有正确的激励或目标(即 PUCR 中的“意图函数”),一个大模型在自我搜索与优选过程中,就能发展出高阶推理能力。此能力可以与主观/客观信息融合,从而有效应对开放场景下的语义冲突或缺失。

第四部分:DEEPSEEK 在 DIKWP 语义空间转化中扮演的角色

本节将把 DEEPSEEK 与 DIKWP 五层要素进行映射,来说明为什么**“DEEPSEEK 只是一个提高 DIKWP 语义空间交互效率的案例”**——它所做的一切,正好在 DIKWP 的大框架里找到了各自的位置。

4.1 “数据(D)”层视角:强化学习与多源输入

在 DEEPSEEK 的 V2 / V3 / R1 训练过程中,需要采集海量的文本、代码、数理题库等数据。这些数据往往来自于网络爬取、开源代码库、以及自合成任务(如自监督生成的题目)等,且不可避免存在不完整、不一致、不精确的现象。例如:

  1. 不完整:部分题目只有题干没有答案;部分代码片段缺少上下文依赖;

  2. 不一致:同一数学定理在不同文档的表述不一致,甚至有错误注释;

  3. 不精确:自然语言描述中常混杂口语、非正式缩写和多语种干扰。

DEEPSEEK 通过大规模预训练 + RL 策略,引导模型尽可能“发现”并整合这些原始数据背后更有用的关键信息,从而在“信息(I)”层成功提炼。简言之,它将多源异构数据的混乱,转化成了可挖掘推理能力,这与 DIKWP 体系下对“D 层”的基本要求是一致的:先承认数据可能“破碎”,再通过语义或算法手段进行统一抽象。

4.2 “信息(I)”层视角:关联差异与语言可读性

DEEPSEEK 在训练过程中,通过 Chain-of-Thought 或多路径探索,不断尝试生成对同一问题的不同解答,并进行自我对比/自我评估(如 R1-Zero 中的“比较不同解答的正确率”)。这本质上就是对“数据”之间差异的提炼和显性化,即从混沌中提取“信息”。例如:

  • 模型初始回答 A 与回答 B 之间的差别,也可以视为对问题信息维度的一种差异性度量;

  • 然后模型基于强化学习的奖励函数,尝试找出“正确率更高”的差异信息,或者“可读性更佳”的表述信息。

DIKWP 视角:信息层的核心在于“差异形成价值”。DEEPSEEK 把这种差异计算嵌入到了 RL 环节中,不断对比不同解法(差异信息)并选取最优,最后在算力和算法驱动下迅速“收敛”到高质量解法。由此可见,DEEPSEEK 的强化学习过程正好是“信息(I)”层的自动化加速器。

4.3 “知识(K)”层视角:自发推理与逻辑规则

当 DEEPSEEK 生成了足够多的高质量思考链条(CoT),并通过多阶段微调/拒绝采样等进行筛选后,它便沉淀下相对可泛化的“知识”结构。在 DIKWP 体系中,知识层的突出特征在于可被推理、可复用、可演绎。DEEPSEEK:

  1. 大规模 RL 后的通用推理:如数学题库中学会的通用“分步解题”方法,可迁移至其他类似任务。

  2. Reflexion/Reflection:R1-Zero 提到模型会“反思”初始解法的合理性,这实际上是一种“知识检验”机制,即对已有知识网络进行自查或修正。

  3. Distillation:将大模型的推理痕迹“蒸馏”至小模型,更像把知识从一个庞大知识库里“萃取”出来,用于快速推理或低算力场景,这本身也符合 DIKWP 对知识层“可移植”的期望。

因此 DEEPSEEK 通过 RL + Distillation 形成的“知识库”,非常类似 DIKWP 中“多主体知识融合”的过程——只是 DEEPSEEK 主要是在语言模型内部,以强化学习的方式处理,而 DIKWP 还考虑了更多跨系统或跨组织的语义对齐。

4.4 “智慧(W)”层视角:价值观与多目标调度

DEEPSEEK-R1 在强化学习中并不单纯地追求“单一正确率”,也要考虑到“输出可读性”“避免 Endless repetition(死循环)”等目标。某种程度上,这些都可以被视为对“价值和人类偏好”的初步对齐,而非仅仅按照客观数据的最优分数来行动。这里的价值/偏好,对应 DIKWP 中的“W(智慧)”层:在自然语言生成与人机交互时,我们需要引入伦理、可读性、用户体验等高阶标准。

  • R1 之所以比 R1-Zero 更受欢迎,不仅是因为准确率更高,也因为它更符合人类阅读习惯、更具备价值对齐的特征。

  • 这种“对齐价值观、对齐阅读体验”的过程,正是 DIKWP 中对“智慧”维度的强调:纯逻辑的知识并不等同于让用户感到信赖或满意的答案,仍需注入社会性或主观性的因素。

4.5 “意图(P)”层视角:PUCR 与多元激励

DEEPSEEK 的 RL 训练框架离不开事先定义的“Reward 函数”,包括正确答案的奖励、可读性奖励、语言规范奖励、乃至与人类反馈对齐的奖励。这实质上是对意图的编码:我们希望一个 LLM 不仅能算对,还要算得“对人友好”,因此需要多目标的协同平衡。PUCR(Purpose Computation and Reasoning)就是 DIKWP 中专门处理这种多目标冲突与价值选择的机制。

  • DEEPSEEK-R1 的多阶段强化学习管线中,每阶段都会结合特定需求(如文本质量、知识覆盖度等)来调整 Reward。

  • DIKWP 角度:意图改变,决策过程就会被重构,这就是 PUCR 的本质功能。DEEPSEEK 用“奖励函数 + 蒸馏/拒绝采样”方法,也在做类似的事情:当人类偏好发生变化,它会对下一阶段训练产生深远影响,最终塑造出新的语言与推理风格。

第五部分:DEEPSEEK 作为 DIKWP 框架下的一个“成功案例”

既然 DEEPSEEK 各个方面都能在 DIKWP 的五层语义中找到对应,那么可以更深入解释:“为何段玉聪教授认为 DEEPSEEK 技术只不过是 DIKWP 语义空间交互提升效率的一个案例”?

5.1 DEEPSEEK 并未穷尽 DIKWP 所有可能性

  • DIKWP 关注主客观混合;DEEPSEEK 主要面向文本数据与问答推理,尚未广泛用于如“多模态工业传感器 + 人类经验 + 社会规范”等更复合型场景。

  • DIKWP 强调跨企业或跨主体的资源融合;DEEPSEEK 更多是一个大模型在单一组织内通过 RL 训练完成推理强化,与多组织、多价值观协调仍需要外部制度与平台支撑。

  • DIKWP 的 EXCR/ESCR 不仅局限于语言推理,还有可能应用于供应链流程、医疗诊断、公共服务等跨领域知识验证;而 DEEPSEEK 目前的公开成果多数集中在数学、编程与语言问答等常规基准测试。

5.2 DEEPSEEK 无法单独解决“语义对齐”背后的社会伦理问题

尽管 DEEPSEEK-R1 在人类可读性、避免语言暴力或不当内容上有所优化,但它所采用的手段更多是“模型层面”的优化或过滤,尚未完整纳入DIKWP 针对多方主体价值冲突下的“智慧(W)”与“意图(P)”冲突管理。例如:

  • 当多个不同机构对“正确答案”本身就无共识时,DEEPSEEK 仅能做一维度或少维度的加权奖励,可能无法真正调和这些冲突;

  • DIKWP 的思路是把这些冲突先标注为不一致(Inconsistent),再通过ESCR 剖析本质冲突,并由 PUCR 来决定妥协或折中方案。

5.3 DEEPSEEK 与 DIKWP 的未来融合

正如段玉聪教授所言,DEEPSEEK 已证明了在纯强化学习条件下,大模型可以自发形成高阶推理能力;这为今后进一步将 DIKWP 完整框架(含多主体不确定性消解、公理化价值观、跨域知识交互等)与类似 DEEPSEEK 的高级 RL 模型结合,提供了绝佳的技术基础。

换言之,DEEPSEEK 是可落地的一块拼图

  1. 它展示了 RL 在语言推理中的巨大潜力

  2. 却还需要更宏观的 DIKWP 生态,去处理真正复杂、多方博弈、意图冲突的场景;

  3. 只有在 DIKWP “统、联、标、融、转、消、池、服” 八步法以及 RDXS+EXCR+ESCR+PUCR 等语义数学方法的统筹下,DEEPSEEK 这种自适应学习技术才能发挥更大作用。

第六部分:DEEPSEEK 技术在 DIKWP 框架下的价值与局限

本部分将更集中地分析 DEEPSEEK 提供给 DIKWP 的借鉴以及可能的局限之处,从而进一步说明它只是一个“在某些方面成功,但并非囊括一切” 的示范案例。

6.1 技术价值与亮点

  1. 验证了强化学习在推理上的深度潜能

    • R1-Zero 显示出只要激励设计合理,大模型会自行发现链式思考、反思、迭代演进等高级行为,不需要大量人工手动标注。

    • 这为 DIKWP 中的信息/知识/智慧层“如何自动化提炼和演绎”提供了新思路:或许只需给定正确的目标和奖励函数,系统就能在庞大语料中摸索出有用的理论和经验。

  2. 证明了分层蒸馏带来的可扩展性

    • DEEPSEEK 将大模型学到的高级推理模式蒸馏给更小模型,使得效率推理质量都得到兼顾。这与 DIKWP 体系强调的“主客观互通”和“知识可重用”思想一致。

    • 将来在 DIKWP 跨组织场景下,也可以用类似蒸馏思路,在本地资源薄弱的小微实体间复制或简化核心模型。

  3. 提供了语义层次上的“可读性”与“对齐”范例

    • R1 虽然仍不完美,但通过冷启动数据 + RL,多阶段管线提升了模型产出的语言可读性与一致性,显示了人机语义对齐可以通过自动化途径来实现。

    • 在 DIKWP 视野下,这说明对于多主体之间的语义“缺省”“冲突”“模糊”,一样可以在一定反馈机制与奖励激励下自动找到调和之道。

6.2 面临的局限与问题

  1. 仍需更高级的意图融合

    • DEEPSEEK 的奖励函数相对单一,如“正确率+可读性”或“符合一些人类偏好”,缺乏处理多方博弈或权益冲突的能力。

    • 当场景中存在根本目标冲突(例如一方追求最大利润,另一方追求环境保护),仅靠微调或朴素的 RL 可能无法得出理想解,而 DIKWP 体系要求在“P(意图)”层明确定义多方目标并可进行高阶协商。

  2. 跨模态、跨系统的不确定性未深入考量

    • DEEPSEEK 主要处理文本、代码、数学题等语料;真实社会中还有图像、传感器、用户行为日志、多语种交流等更复杂的数据源。

    • DIKWP 不只着眼语言与文本,而是整体的“主客观融合”,包括工业生产、社会伦理、法规政策……这并非 DEEPSEEK 的当前覆盖范围。

  3. 隐含的算力/数据垄断与大模型代价

    • DEEPSEEK 虽然宣称在 H800 上做了高度优化,训练成本相对可控,但仍是一个需要大规模集群与海量数据的项目。对于绝大多数小微组织而言,单靠自身难以复现或掌握整套流程。

    • DIKWP 最初关注的就是面向资源有限的主体提供不确定性化解策略——强调多主体联动,而不是某个中心化大模型独揽一切。因此 DEEPSEEK 在如何分布式协作、降低门槛等方面,还需要更多外部生态支撑。

  4. 缺乏对主观与伦理冲突的系统化处理

    • DEEPSEEK 虽然在后期融入了“人类偏好”或“可读性”奖励,但对真正复杂的伦理评估或价值冲突并没有系统机制;一旦任务涉及伦理两难、社会公正等题目,可能力不从心。

    • DIKWP 中的“智慧(W)”与“意图(P)”层提出了将社会价值观与道德因素融入推理过程,这绝不是依赖一些简化的 RL Reward 所能完全解决。

第七部分:借鉴与扩展——从 DEEPSEEK 走向 DIKWP 更广阔落地

通过前文分析可见,DEEPSEEK 作为大模型+强化学习的先进尝试,确实在语义自动生成、推理结构优化与蒸馏技术等方面达到了新的高度。然而从 DIKWP 体系的视角出发,尚有许多更广阔的空间需要探索与扩展,本节将对可能的结合方式与未来趋势做出一些探讨。

7.1 多主体协同与“意图合并”机制

  • 现状:DEEPSEEK 多以单一实体或组织内的训练管线为主,尚未形成跨企业、跨机构的协同运行生态。

  • DIKWP 角度:若在多主体间采用“P 层合并”方法,即通过 PUCR(Purpose Computation and Reasoning)将不同主体的目标分层映射,然后在大模型或多模型环境中训练出一种兼容或折中策略;如此方能解决真实社会中的多方博弈问题。

  • 可行做法:引入基于区块链或安全多方计算的奖励分享,令每个参与方都能设置自身意图,并让 RL 模型在合并奖励函数时找到最大化全局收益或 Pareto 优解。

7.2 动态知识图谱与 EXCR/ESCR 在工业场

(此处往下内容涉及商业机密,故此省略,备索取:duanyucong@hotmail.com)



https://blog.sciencenet.cn/blog-3429562-1470854.html

上一篇:DEEPSEEK技术DIKWP语义空间转化交互提升效率分析
下一篇:重磅报告:《DIKWP视野下的DEEPSEEK到DIKWP-EEPSEEK》
收藏 IP: 140.240.36.*| 热度|

1 刘跃

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

1/0 | 闁诡剚妲掗锟�:0 | 濡絾鐗犻妴锟� | 濞戞挸锕g粩瀛樸亜閿燂拷 | 閻犲搫鐤囧ù锟�

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-2-28 15:15

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部