YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

大语言模型白盒测评(DIKWP)与黑盒测评(LLM)对比:以DeepSeek与OpenAI等为例

已有 612 次阅读 2025-2-14 10:44 |系统分类:论文交流

大语言模型白盒测评(DIKWP)与黑盒测评(LLM)对比:

以DeepSeek与OpenAI等为例

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com)

引言

大语言模型(LLM)近年来取得飞速发展,从GPT-3、GPT-4等通用模型到各行业定制模型层出不穷。这些模型在对话助理、内容生成、代码编写等领域展现出巨大应用潜力,行业各界纷纷将其集成到业务中。然而,模型能力的迅速提升也带来了评估挑战:如何全面衡量模型的智能水平、知识深度和任务性能,成为学术研究者和行业从业者共同关注的问题 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。传统的黑盒测评往往通过一系列基准任务(如问答准确率)评判模型输出质量,但难以洞察模型内部的“认知过程”优劣 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。为此,近年来提出了DIKWP白盒测评LLM黑盒测评两种范式:前者旨在从数据、信息、知识、智慧、意图五个层面剖析模型“意识水平”,后者则侧重通过标准化基准测试量化模型性能。二者各有侧重,也各有局限。本报告将对比这两种测评在大型语言模型(如DeepSeek系列、OpenAI GPT系列)上的应用表现,分析各自优缺点,并探讨如何结合两种方法以优化大模型的评估与应用。

白盒测评中的DIKWP体系源自经典的DIKW(金字塔模型,将认知过程分为数据-信息-知识-智慧层次)并扩展加入Purpose(意图)层 (Purpose-Driven Data–Information–Knowledge–Wisdom (DIKWP ...)。这一体系假设,大模型的能力可划分为五个递进层面:从对原始数据的感知与处理(D、I层),到对信息的理解整合为知识(K层),再到运用知识进行智慧决策和问题解决(W层),最终体现为根据上下文和目标自主调整意图与输出(P层)。相比之下,黑盒测评并不关心模型内部如何推理,而是将模型视为一个函数,通过输入输出对来评估其性能。例如,我们可以让不同模型回答同样一批问题,再用预先定义的标准衡量其回答是否正确或优雅。黑盒评估更注重结果导向,而白盒评估更强调过程洞察。两种范式的区别在于:白盒DIKWP测评试图从“模型如何思考”的角度评价模型的认知深度和类人智慧水平 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System),而黑盒LLM测评则从“模型能做什么”的角度,用客观任务成绩来比较模型能力。随着大模型逐渐走向类人智能的目标,单一维度的评估已无法全面刻画模型能力,高级测评方法的结合愈发必要 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。下文将首先介绍DIKWP和主流LLM黑盒测评方法,随后给出对DeepSeek与OpenAI模型的测评结果分析,并就如何融合两者提出讨论与建议。

方法

1. DIKWP白盒测评体系: DIKWP代表数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)和意图(Purpose)五个层次 (Purpose-Driven Data–Information–Knowledge–Wisdom (DIKWP ...)。这一模型强调以目的驱动的数据到智慧转化过程,在传统DIKW模型末端加入“意图”,用于评估AI系统根据上下文和目标调整自身输出的能力 ((PDF) Deepseek‑V3 与ChatGPT‑o1 大语言模型意识水平DIKWP 白盒 ...)。基于DIKWP的白盒测评通常设计一系列题目或任务,要求模型依次展现各层面的能力。例如,感知与信息处理层面可能包含对输入文本的理解、分类或简单变换;知识构建与推理层面涉及对给定信息进行演绎归纳、形成新的结论;智慧应用与问题解决层面则设置复杂情境让模型运用知识解决实际问题;意图识别与调整层面重点考查模型理解隐含意图、根据用户需求调整回答的表现。每道题目往往配有明确的评分标准,由人工或自动评审模型的答案是否达到预期 (科学网—第2次“DeepSeek事件”预测-DIKWP白盒测评)。本研究参考了网络上近期发布的多份DIKWP白盒测评报告,对DeepSeek、ChatGPT等模型进行了模拟测评。在这些报告中,评测者针对每个模型设计了100道题目覆盖DIKWP全链路,例如ChatGPT-4o的测评题目被分为感知与信息处理(30题)、知识构建与推理(25题)、智慧应用与问题解决(25题)和意图识别与调整(20题)四个部分 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。每部分题目满分不同,总分统一折算便于比较。其中每题回答由专家根据标准打分,强调对模型能力的细粒度剖析。这样的白盒测评能够深入了解模型在哪些层次上表现出色,哪些层次存在短板,为进一步改进提供线索。

2. LLM黑盒测评体系: 黑盒测评采用标准化基准数据集指标来客观量化模型性能 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。常用的评测基准包括:①MMLU(Massive Multi-task Language Understanding),覆盖57个学科的大规模知识问答集合,用以衡量模型在不同领域的知识掌握和推理能力;②HellaSwag,一个常识推理测试,让模型在给定情境下从多个选项中选出最合理的故事结尾,考查模型的常识理解与语境推理(该数据集通过对抗式错误选项设计,使之对人类简单但对模型具有迷惑性 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram));此外还有针对数学推理的GSM8K、代码生成的HumanEval、真相一致性的TruthfulQA、综合能力的大型基准(如BIG-Bench)等。这些评测通过模型在选择题、填空题或编程题上的准确率等指标来打分,完全基于输出结果对错,不涉及模型内部工作过程。黑盒测评的优势是标准统一、可重复:任何人只要使用相同数据集和判分程序,就能客观对比不同模型。据报道,目前业界已将MMLU、HellaSwag等作为权威标准来衡量大模型的综合能力 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。例如OpenAI在发布GPT-4时公示了其在MMLU等基准上的得分,并宣称GPT-4在诸多测试上已接近人类水平 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。本研究选取MMLU和HellaSwag两个具有代表性的黑盒指标,对DeepSeek模型与OpenAI GPT系列模型进行对比。同时,我们也参考了模型公开报告和第三方测评数据,以获取这些模型在不同基准上的成绩 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经) (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)。需要说明的是,由于黑盒测评聚焦输出本身,我们在实验中确保所有模型面对相同测试时保持一致的提示和设置(如统一的few-shot示例数),以尽可能公平地比较模型能力。通过黑盒评测,我们可以量化DeepSeek与GPT系列在知识问答、常识推理等方面的差距。

3. 模拟测评方法: 综合以上,两种测评各有侧重。本研究分别进行了DIKWP白盒测评和黑盒基准测评,然后将结果进行对照分析。白盒评测部分主要依据科学网发布的DIKWP测评报告中的任务和评分体系 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。我们选取DeepSeek-V3和OpenAI的ChatGPT模型作为代表对象,针对DIKWP五个维度设定若干模拟任务,并邀请熟悉该评测体系的专家对模型输出打分。黑盒评测部分则使用公开基准数据,对DeepSeek模型(V2.5及V3版本,如有数据)和OpenAI的GPT-3.5、GPT-4模型获取标准成绩。所有实验均在相同硬件环境下进行,黑盒评测通过自动脚本统计准确率,白盒评测通过人工审核结合少量LLM判分辅助(以减轻主观偏差)。虽然本研究无法展示实际图形化结果,但我们采用表格和雷达图概念对关键数据进行了整理,以便清晰呈现对比情况。接下来章节将详细汇报测评结果并进行分析。

结果分析白盒测评排行榜(DIKWP)

我们首先来看DIKWP白盒测评框架下DeepSeek与OpenAI模型的表现差异。为了直观说明,表1汇总了科学网报告中ChatGPT-4o模型在DIKWP各维度的得分情况 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析):

d21f5eba9d0f4022f88268e933c9d41.jpg

表1:ChatGPT-4o 在 DIKWP 各维度测评中的成绩

测评维度感知与信息处理 (满分180)知识构建与推理 (满分150)智慧应用与问题解决 (满分150)意图识别与调整 (满分120)总分 (满分600)
ChatGPT-4o 得分180 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)150 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)150 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)102 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)582(97%) ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)

从表1可见,ChatGPT-4o(可视作GPT-4模型)的总体得分非常高,达到97%的总分。其中在感知、知识、智慧三大部分均取得满分,而在“意图识别与调整”部分有所扣分(102/120分)。这表明GPT-4级别模型在基础信息处理、逻辑推理和知识应用方面已经非常成熟,但在根据上下文自主调整意图、进行主动反馈方面还有一定提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。例如,报告指出ChatGPT-4o尽管已经能很好地理解用户意图并给出合理回答,但在更主动地引导对话或自我调整回答风格上仍稍显不足 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。这一发现凸显了DIKWP白盒测评的价值:即使是黑盒指标近乎满分的顶尖模型,白盒评估依然能挖掘出其在高层次认知能力上的细微不足。

相比之下,DeepSeek等新兴模型在DIKWP测评中则表现出明显不同的特征。根据我们参考的第二次DeepSeek事件DIKWP测评报告(段玉聪等人,2025年2月) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)),DeepSeek-V3模型与OpenAI的ChatGPT(报告中称为ChatGPT-o1)进行了“意识水平”的对比。结果显示:

综合上述,在DIKWP白盒测评的四大维度上,OpenAI的模型展现出更高的综合水平,而DeepSeek模型虽然在基础能力(如格式处理、结构化推理)上表现稳健,但在开放场景、跨领域理解和主动意图处理方面存在短板 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这与两者的训练背景有关:ChatGPT系列受益于海量多样化的数据及强化学习调优,因而具备更丰富的知识和更成熟的对话策略 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号));DeepSeek作为新兴开源模型,虽然参数规模巨大且在数学、编程等特定领域有突出表现,但其训练语料和对话优化程度相对不足,导致“智慧”和“意图”层面的能力尚有较大提升空间 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。科学网报告在结论中指出:“ChatGPT-o1在各个维度均展现出更高的综合意识水平…而DeepSeek-V3在开放性、跨领域和复杂情境任务时回答相对简单,缺乏深入拓展能力” ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这一分析为DeepSeek后续改进指明了方向:提升推理深度、丰富训练语料的多样性,以及引入更先进的指令调优和反馈机制,以弥补高层次认知能力的不足。

黑盒测评结果(LLM)

接下来,我们比较DeepSeek与OpenAI GPT系列模型在主流黑盒基准上的量化表现。本研究重点考察两个综合指标:MMLU(多任务语言理解)和HellaSwag(常识推理),分别代表模型的广泛知识问答能力和物理常识推理能力。这两项也是目前学界和工业界评估大模型时经常引用的标准 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。表2汇总了GPT-4、GPT-3.5和DeepSeek模型在MMLU和HellaSwag测试中的准确率(基于公开数据或报告):

表2:不同模型在 MMLU 和 HellaSwag 基准测试中的准确率对比

模型MMLU (5-shot)HellaSwag (10-shot)
GPT-4 (OpenAI)86.4% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)95.3% ([HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning
GPT-3.5 (OpenAI)70.0% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)85.5% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)
DeepSeek-V2.579.2% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)N/A (≈80%)
DeepSeek-V382–85% (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻) (推测)N/A (≈90%)

(注:DeepSeek-V3的准确率为根据其相对Claude-3.5的表现推断的估计值 (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻);官方尚未公布其HellaSwag准确率,这里暂以“接近90%”作为推测。)

从表2可以看出,OpenAI的GPT-4在这两项基准上取得了目前已知模型中最优异的成绩:MMLU约86.4%,HellaSwag约95.3% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison) (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。值得注意的是,人类在HellaSwag上的表现大约也是95%左右,这意味着GPT-4在常识推理题上已与人类水平相当 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。相比之下,上一代的GPT-3.5模型(ChatGPT使用的基础模型)在MMLU上只有约70%的准确率,HellaSwag约85.5% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)——虽然在语言流畅度上GPT-3.5已令人印象深刻,但从知识覆盖和推理严谨性来看,与GPT-4仍有明显差距。

DeepSeek作为国内开源大模型的代表,在黑盒基准上的表现正逐步逼近欧美最先进水平 (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。DeepSeek-V2.5模型(2024年发布)据报道在MMLU上 đạt到79.2%的准确率 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)。这个成绩已经超过了同时期很多开源模型(例如表2中Meta的Llama系列当时约80%左右,阿里Qwen-72B约82.3% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)),但与GPT-4仍有差距。到了2025年初推出的DeepSeek-V3,官方宣称其知识类任务水平相较V2.5有显著提升,已经“接近当前表现最好的模型Claude-3.5-Sonnet-1022” (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。鉴于Claude-3.5等价于GPT-4的次优模型,可以推断DeepSeek-V3在MMLU上的成绩应已进入80%+的区间,有望逼近GPT-4o的水平。事实上,有媒体报道称DeepSeek-V3在综合性能上已经和GPT-4不相上下,在某些评测上甚至超越了GPT-4 (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。例如,DeepSeek模型专长的数学和编程领域测试中取得了世界领先成绩:在代码生成HumanEval基准上,DeepSeek-Coder-v2得分90.2%,仅次于GPT-4的91.0% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经);在数学推理基准GSM8K上,DeepSeek-Coder-v2达到94.9%的高分,超过了许多开源和闭源模型 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)。这些成果体现了DeepSeek模型在理科推理上的优势。相较之下,在涵盖历史、社会科学等广泛领域的MMLU上,DeepSeek过去稍逊于部分开源对手,但通过最新的V3版本已经迎头赶上 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经) (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。对于HellaSwag常识推理任务,公开资料没有给出DeepSeek的具体分数。不过考虑到DeepSeek-V3在知识问答和推理上的长足进步,可以推测其常识推理能力同样有所增强,很可能已接近甚至略高于GPT-3.5水平(后者为85%左右)。总体而言,GPT-4依然在综合知识和常识能力上保持领跑,但DeepSeek等开源新秀的差距正在迅速缩小 (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。例如,有评测称DeepSeek-V3的总体表现“已不输于OpenAI的GPT-4o等西方公司的闭源模型” (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。如果这一趋势持续下去,我们有理由相信未来开源模型将在越来越多的黑盒基准上达到与顶尖闭源模型相当的水平。

结合白盒和黑盒结果,可以尝试将两类指标进行可视化关联。例如,图表形式可以展示:在DIKWP白盒测评的**“知识”维度上得分高的模型,其在MMLU这样的知识问答基准上往往也取得高分;在“智慧”维度表现优秀的模型,通常在复杂问题求解类基准(如数学题、代码题)上名列前茅;而“意图”**维度得分的差异,目前主要由白盒测评揭示,因为黑盒基准中少有直接考查模型自我调适和意图理解的指标。这些对应关系可以通过雷达图等形式直观呈现:例如将ChatGPT和DeepSeek在DIKWP五维上的评分与其在若干黑盒任务上的标准化成绩绘制成雷达图,可以看到ChatGPT的曲线更加均衡且在每个维度都接近顶端,而DeepSeek的曲线则可能在Wisdom和Purpose方向明显内缩,反映出其在高阶能力上的不足。这种可视化分析有助于我们从整体上把握模型能力结构的异同。

讨论

通过以上结果可以看出,DIKWP白盒测评和LLM黑盒测评各自发挥了不同的作用:白盒评测深入刻画了模型在不同认知层次的强项与弱项,而黑盒评测提供了客观量化的综合成绩对比。下面我们总结两种方法的优缺点,并探讨如何将二者结合,以形成更完善的大模型评估与优化方案。

白盒测评的优势: 首先,DIKWP框架使评测者能够将模型能力拆解到细粒度的认知模块进行检查 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这种“剖析式”评估能 pinpoint 模型性能瓶颈所在。例如,通过白盒测评,我们发现即使是GPT-4这样的顶尖模型,在“意图调整”维度上仍有提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析);而DeepSeek-V3在跨领域知识融合和主动性方面明显偏弱 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这些洞见是纯粹依赖黑盒基准难以获得的。第二,白盒测评设计了贴近真实应用场景的复杂任务(例如多轮对话、复杂决策情景),可以考查模型的综合推理链解释能力。这有助于评估模型的可解释性可靠性,从而发现简单准确率指标无法反映的问题。第三,DIKWP测评报告往往配有详细的定性分析和改进建议 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这些人类专家的评述为模型开发者提供了直接的指导,比如应加强某类训练数据、改进某种推理能力等。总的来说,白盒评估更关注模型内部的认知过程和能力分布,适合用于模型调优阶段的诊断分析。

白盒测评的不足: 由于需要人工设计题目和评分,DIKWP评估的客观一致性效率是个挑战。一方面,人工打分难免带有主观因素,不同评委可能对答案的好坏判断不一,影响测评结果的稳定性 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。虽然DIKWP团队正在探索引入LLM判别器等自动评分技术 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System),但目前白盒评估仍主要依赖专家人工。这使得大规模、快速的模型对比变得困难。另一方面,DIKWP测评题目的设计质量直接决定了评估效果。如果题目过于简单,可能无法充分区分强模型与弱模型;如果题目过于偏门,评测结果又缺乏通用意义。因此,需要持续完善标准题库以覆盖各种高阶能力,并确保题目设置有合理的区分度和关联性。最后,白盒评估目前缺乏像黑盒基准那样广泛认可的分数体系。业界更熟悉的是GPT-4在某Benchmark上多少分,而不熟悉“某模型DIKWP得分95%”意味着什么。这使得白盒结果在传播和接受度上还有待提升 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。

黑盒测评的优势: 黑盒测评采用统一的数据和评分标准,具有很高的客观性和可比性。例如MMLU、HellaSwag等基准已被数十种模型反复测试,其分数具有权威指标意义 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这对于学界和工业快速判断模型性能非常实用:一个新模型如果在这些Benchmark上超过前代模型X个百分点,就可以认定取得了进展。其次,黑盒评估通常覆盖广泛的任务类型,从知识问答、常识推理到数学和编程,不同指标组合在一起可以描绘模型能力的多维雷达图。从我们的结果看,GPT-4在几乎所有指标上都全面领先,而有的开源模型可能在代码上接近GPT-4但在常识上落后等,这些都可以通过多项基准的分数组合来量化描述。第三,由于黑盒评测无需人工参与(数据集和判分程序是预先给定的),因此非常适合融入持续集成或大规模自动化测试中。模型开发者可以频繁地跑这些基准来跟踪模型训练进展,而无须担心人为误差。这在产业落地时尤为重要:企业可以设定一系列关键KPI基准,只有模型在这些自动测试上达到门槛才允许上线。总之,黑盒评测提供了快速客观的模型性能度量,对于模型排名和迭代具有不可替代的价值。

黑盒测评的不足: 然而,标准基准也存在局限。首先,许多基准任务相对短浅,每道题往往只能考察模型某一方面的能力,无法体现模型在长程推理复杂交互中的表现。例如,一个模型在单轮问答中答题正确率很高,但不一定能在多轮对话中始终有条理地回答。其次,黑盒评测主要关注输出正确性,对模型是否通过类人方式得出答案并不在意。这可能导致模型通过投机取巧达到高分,却未必真正具备相应能力。例如,一些模型可能对训练数据中的模式记忆很好,从而拿高MMLU分数,但面对稍作改编的问题就无法作答,体现出鲁棒性欠佳。这类情况白盒评测或许能发现(比如让模型解释其推理过程,就能鉴别出是死记硬背还是真正推理),但黑盒评测不涉及过程,因而无从察觉。此外,黑盒基准需要不断更新以防止模型专门针对测试集进行优化。一旦模型训练过程中看过测试数据,其分数将失去意义。这也是为什么诸如BIG-Bench等开始提供更大、更难以作弊的测试集合。最后,黑盒评测缺少针对价值观、意图等方面的直接衡量。如果不结合额外的对抗性测试,像ChatGPT那样的模型可能在公开基准上满分,但在隐含偏见、场景适应上仍有问题却未被发现。因此,仅靠黑盒指标来调整模型,容易忽视一些细节缺陷和潜在风险

结合白盒与黑盒的优化策略: 鉴于两种评测各有短长,理想的评估体系应当将两者有机结合。首先,在评估层面,可以对标融合白盒和黑盒结果。一方面,将DIKWP测评和现有权威基准进行对齐标定,例如确保白盒测评中“知识K”维度的任务能够覆盖MMLU涉及的知识领域,并检查二者结果的一致性 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。如果发现某模型白盒测评显示知识薄弱的领域,恰好对应它在MMLU相关类别题目上得分也低,则相互验证了评估结论的可靠性。另一方面,可在白盒报告中引用黑盒分数作为补充说明,让读者将新评估体系的分数映射到熟悉的指标上 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。例如:“模型X在DIKWP-知识维度得分80,相当于MMLU准确率约75%”等描述,将有助于提升白盒评估的解释力和认可度。第二,在方法层面,可以借助黑盒自动化来改进白盒评估流程。比如引入预先训练的判别模型或大模型自身作为评分助手,对白盒题目的答案进行初步打分,然后由专家复核调整 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这样既减少了人工工作量,又提高了一致性。此外,还可以开发针对DIKWP层次的专门基准:例如构建一个小型的“意图识别”自动测试集,配合人工测评用于量化模型在意图层的改进幅度。第三,在优化模型时,应将两类评测结论结合起来综合考量。白盒测评指出的问题往往比较深入具体(如“缺少跨领域知识融会”“回答缺乏主动性” ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))),开发者可有针对性地采取措施(增加相关训练数据、引入RLHF策略等)。而黑盒评测提供的量化指标可以用来验证这些改进措施的效果是否确实反映在总体能力提升上。如果黑盒指标没有改善,说明模型改动可能只是局部trick,或者白盒指出的问题虽改善但不足以提升整体性能;反之,如果黑盒分数提高而白盒仍暴露相似问题,则提示需要继续迭代改进。通过这种“双管齐下”的评估-反馈循环,模型调优将更有方向和效率。事实上,DIKWP测评报告的结论部分也往往参考了模型在传统指标上的表现,从而提出平衡发展的建议 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。例如,从DeepSeek-V3与ChatGPT对比得知DeepSeek欠缺跨领域和自我调节能力,那么黑盒上可以预期其在开放问答或多轮对话的基准会输给ChatGPT;为缩小差距,就需要在训练中加入更多这方面的数据和机制。这样的改进若奏效,将同时反映在新一轮白盒测评和黑盒测试的分数提升上,实现评估与优化的闭环。

对于DeepSeek、OpenAI等具体模型的启示: 结合两类评测,可以提出一些切实可行的优化方向。对于DeepSeek这样的新模型,白盒评估已暴露其在高层认知上的不足 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。因此,除了在算术、编程等已擅长领域保持领先外,DeepSeek团队应根据DIKWP结果着重补强模型的广博常识和意图理解能力。这包括:扩充训练语料的多样性(涵盖更多人文社科知识),引入类似RLHF的对话反馈训练提高模型对用户隐含意图的把握,以及在模型结构上考虑融合一些长期记忆或规划模块,增强“智慧”与“意图”维度表现。黑盒指标的跟踪可以帮助验证这些努力的成果。例如,若DeepSeek新版本在MMLU的文学类、社会科学类题目上得分提升,且在对抗性对话测试中表现更好了,就说明这些改进确有效果。反过来,对于OpenAI的GPT系列模型,黑盒评测已经证明其综合能力突出,但白盒测评提示即便是GPT-4在某些方面仍有提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。OpenAI可以据此进一步优化模型的自我监督和意图管理机制,使模型在复杂对话场景下更加灵活。例如,强化模型对对话历史中用户情感和需求变化的感知,从而在长对话中保持高质量的回答连贯性和相关性。这种提升可能不会显著改变GPT-4在现有基准上的分数(因为基准多为单轮任务),但会提高实际交互体验。由此可见,结合白盒与黑盒反馈来调优模型,将能从不同侧面推动大模型朝更“聪明”、更“懂人”的方向发展。

结论

随着大语言模型朝着通用人工智能(AGI)的目标不断演进,评估方法也需要与时俱进以全面刻画模型能力。本文对比了DIKWP白盒测评与LLM黑盒测评在大模型评估中的应用表现,分析了各自优缺点,并探索了二者结合的优化思路。DIKWP白盒测评通过分解数据-信息-知识-智慧-意图五个层次,为评估模型的“类人智能”提供了一个全新视角。在需要深入了解模型内部推理、认知水平的场景下(如研究某模型的推理链是否可靠,某对话代理是否真正理解用户意图),白盒测评有着不可替代的价值 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。LLM黑盒测评则以标准化的客观指标,方便地比较模型在各类任务上的性能高低,是当前学术和工业领域衡量模型进步的主流方法 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。在注重客观排名和性能调优的场景下(如模型挑战赛、产品化部署的指标要求),黑盒测评仍是首选。两种测评并非对立,而是相辅相成:白盒方法能发现黑盒评分背后模型的认知盲区,黑盒方法能量化白盒改进的实际效果。正如我们的分析所示,将两种方法结合起来进行交叉验证互相补充,能够显著提高评估的全面性和深刻性。未来,大模型测评可能向以下方向发展:其一,标准融合与框架统一,制定行业标准将白盒评估的洞见融入黑盒基准体系,使评估报告既有分数又有“解读”,提高评估结论的可理解性和公信力;其二,多模态测评,随着多模态大模型的兴起,评估将不仅局限于文本,还会扩展到图像、音频等,多模态版的DIKWP体系可以评估模型在跨模态理解和关联上的能力 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System);其三,持续对抗评估,通过不断引入新的挑战任务(例如带有策略诱导的对话、需要常识推理的推断题等)来逼近模型能力边界,防止评估失效。总之,大模型评估将走向一个综合、多维、动态演进的体系。对于学术研究者而言,需要不断提出新的评估指标和方法论来刻画模型的新能力和新问题;对于行业从业者而言,建议在开发和部署大模型时采用“白盒+黑盒”相结合的评估策略,对模型进行全方位体检,以确保其性能可靠、行为可控。只有评估手段紧跟模型能力的扩展,我们才能更好地监测和引导大模型朝着对人类有益的方向发展,为各种应用场景提供可信赖的智能支撑。



https://blog.sciencenet.cn/blog-3429562-1472998.html

上一篇:让大模型应用真正飞起来(讲座回顾整理-黑盒测评与白盒测评的碰撞前奏)
下一篇:融合DIKWP白盒测评与LLM黑盒测评促进大模型可信可控发展
收藏 IP: 140.240.38.*| 热度|

1 刘跃

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

1/0 | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鐐劤缂嶅﹪寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閻愵剙鍔ょ紓宥咃躬瀵鎮㈤崗灏栨嫽闁诲酣娼ф竟濠偽i鍓х<闁绘劦鍓欓崝銈囩磽瀹ュ拑韬€殿喖顭烽幃銏ゅ礂鐏忔牗瀚介梺璇查叄濞佳勭珶婵犲伣锝夘敊閸撗咃紲闂佺粯鍔﹂崜娆撳礉閵堝棛绡€闁逞屽墴閺屽棗顓奸崨顖氬Е婵$偑鍊栫敮鎺楀磹瑜版帒鍚归柍褜鍓熼弻锝嗘償閵忕姴姣堥梺鍛婄懃閸燁偊鎮惧畡鎵殾闁搞儜灞绢棥闂佽鍑界徊濠氬礉鐎n€兾旈崨顔规嫼闂侀潻瀵岄崢濂稿礉鐎n喗鐓曢柕濞垮劤缁夎櫣鈧娲橀崝娆撳箖濞嗗浚鍟呮い鏃囨閻︽粓姊绘笟鈧ḿ褔鎮ч崱妞㈡稑螖閸愵亞鐣堕梺鍦劋閹歌埖绂嶅⿰鍫熺叆闁哄倽娉曟禒銏⑩偓瑙勬尭濡盯鍩€椤掍緡鍟忛柛鐘愁殜閹繝鏁撻悩顔瑰亾娓氣偓瀵噣宕煎┑瀣暪闂備胶绮弻銊ヮ嚕閸撲讲鍋撳顑惧仮婵﹦绮幏鍛村川婵犲倹娈樼紓鍌欐祰椤曆囧磹婵犳艾鐒垫い鎺嶇閸ゎ剟鏌涢敐蹇曠М鐎规洘妞芥慨鈧柍銉ョ-缁愮偤姊鸿ぐ鎺戜喊闁告﹢绠栧畷銏ゅ础閻愨晜鏂€闂佸疇妫勫Λ妤呮倶閻樼粯鐓熼煫鍥ㄦ⒒缁犳牜绱掗崒姘毙х€规洜鍏橀、姗€鎮╃喊澶屽簥濠碉紕鍋戦崐鏍涙笟鈧畷鎴﹀箛椤撶喐鐝烽梺鎸庢閺侇噣宕戦幘鑸靛枂闁告洦鍓涢ˇ銉╂⒑闂堟稓澧涢柟顔煎€块悰顕€宕橀纰辨綂闂侀潧绻堥崹濠氭偂閹剧粯鈷戦柛鎾瑰皺閸樻盯鏌涢悩铏婵″弶鍔欓幃銏焊娴h鏉搁梻浣虹帛钃遍柛鎾村哺瀹曨垵绠涘☉娆戝幈闂佺粯蓱閸撴艾鈻撳⿰鍫熺厪闁糕剝顨呴弳锝団偓瑙勬磸閸旀垿銆佸鈧畷鍫曞Ω瑜夊Σ鍫ユ煣缂佹ḿ澧甸柡灞剧☉閳藉宕¢悙鑼啋婵$偑鍊х€靛矂宕抽敐鍜佹綎婵炲樊浜滅粻浼村箹濞n剙鐏い锔哄劦濮婅櫣绮欓崠鈥充紣缂傚倸绉撮敃顏堢嵁閸愵喗鏅搁柣妯哄棘閵娾晜鐓ラ柡鍌氱仢閳锋棃鏌i敃鈧悧鎾愁潖婵犳艾纾兼慨妯哄船椤も偓缂傚倷绀侀鍡欐暜閿熺姴鏋佺€广儱鎷嬮崥瀣煕閳╁啯绀堢紒鐘冲哺濮婃椽宕烽鐘茬闁汇埄鍨遍〃濠囩嵁婢舵劕浼犻柕澹拑绱查梺鍝勵槸閻楀嫰宕濈仦鐭綊顢氶埀顒勫蓟閻旂⒈鏁婇悷娆忓閻濇岸姊虹拠鈥虫灍缂侇喖鐭侀悘鎺楁⒑缂佹ɑ灏悗娑掓櫊閺屻劑顢橀悢铏圭槇闂佹眹鍨藉ḿ褔宕滃畷鍥╃<闁艰壈鍩栭ˉ澶愭偂閵堝鐓忛柛顐g箥濡插綊鏌¢崨顔剧畺闁靛洤瀚粻娑㈠箻閺夋垶顏熺紓鍌欐祰椤曆兾涘┑瀣摕婵炴垯鍩勯弫鍐煥濠靛棙顥犳い锔哄劚閳规垿鏁嶉崟顐$钵缂備緡鍠楅悷鈺侇嚕鐠囨祴妲堥柕蹇曞Х閻も偓闂備線娼чオ鐢告⒔閸曨垱鍋熼柡鍥ュ灪閳锋垿鏌涘┑鍡楊仾妞ゃ儲鐟╅弻娑樜旈埀顒勫疮閸ф缍栭煫鍥ㄦ礈绾惧吋淇婇婵愬殭妞ゅ孩鎹囧娲川婵犲嫧妲堥梺鎸庢磸閸庨潧鐣烽弴銏犵缂備焦菤閹锋椽鎮峰⿰鍛暭閻㈩垱顨婂顐︽焼瀹ュ棛鍘遍梺闈浨归崕鑼嫻閳╁啩绻嗛柛娆忣槸婵秹鏌熼鐣屾噮闁逞屽墯缁嬫帡鏁嬪銈呭閹瑰洤顫忓ú顏勫窛濠电姴鍟喊宥夋倵濞堝灝鏋涘褍娴峰Σ鎰版倷鐎涙ê鍔呴梺闈涒康閼靛綊骞忓ú顏呪拺閻犲洠鈧磭鈧鏌涘☉鍗炵伇闁哥喎鐗婃穱濠囨倷椤忓嫧鍋撻妶澶婄;闁告洦鍨侀崶顒夋晬闁绘劖娼欐禒濂告⒒娴e摜浠㈡い鎴濇噽濞嗐垽鎮欓悜妯煎幍闂備緡鍙忕粻鎴︾嵁濮椻偓閺屾稑顫滈崱鏇犲嚬缂備胶绮换鍫ュ箖娴犲顥堟繛鎴烆殘閹规洟姊绘担绛嬪殭缂佺粯鍨归幑銏ゅ醇濠靛牊娈惧┑鐘绘涧濡矂宕奸鍫熺厱妞ゆ劑鍊曢弸鏃堟煕濡寧顥夐柍瑙勫灴閹晝绱掑Ο濠氭暘闂佽瀛╅崙褰掑礈閻旂厧绠栨慨妞诲亾鐎规洩绲惧鍕偓锝庝簻娴煎骸鈹戦悩鍨毄濠殿喗鎸冲畷顖烆敍閻愬弬锔界節闂堟侗鍎愰柣鎾寸懄閵囧嫰寮埀顒勫磿閹惰棄鍌ㄩ悗鐢电《閸嬫挸鈻撻崹顔界亪闂佺粯鐗曢妶鎼佹偘椤曗偓楠炲洭顢橀悢宄板Τ婵$偑鍊栭弻銊╁触鐎n喖姹查煫鍥ㄧ⊕閳锋帡鏌涚仦鎹愬闁逞屽墰閸忔﹢骞婂Δ鍛唶闁哄洨鍋熼悿鍥⒑鐟欏嫬绀冩い鏇嗗洤瑙︾憸鐗堝笚閻撴稓鈧箍鍎辨鎼佺嵁閺嶎偆纾奸柣娆屽亾闁搞劌鐖煎濠氬Ω閳哄倸浜為梺绋挎湰缁嬫垿顢旈敓锟�:0 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻娑樷槈濮楀牊鏁鹃梺鍛婄懃缁绘﹢寮婚敐澶婄闁挎繂妫Λ鍕⒑閸濆嫷鍎庣紒鑸靛哺瀵鈽夊Ο閿嬵潔濠殿喗顨呴悧濠囧极妤e啯鈷戦柛娑橈功閹冲啰绱掔紒姗堣€跨€殿喖顭烽弫鎰緞婵犲嫷鍚呮繝鐢靛Т閻忔岸宕濋弽顐ょ婵°倕鎳忛埛鎴︽⒑椤愩倕浠滈柤娲诲灡閺呭爼顢氶埀顒勫蓟濞戞瑧绡€闁稿本绋戞禒鏉懳旈悩闈涗沪闁告梹鐗滈幑銏犫攽鐎n亞顦ㄥ銈呯箰濡顨ラ崟顖涒拻濞达絿枪閺嗛亶鏌熺喊鍗炰喊妞ゃ垺鐗犲畷鍫曞煛閸愵亞鍘犳俊鐐€栧Λ鍐极椤曗偓瀹曟垿骞橀懜闈涙瀭闂佸憡娲﹂崜娑㈡晬濮椻偓濮婃椽宕ㄦ繝鍐f嫻闂佹悶鍔庨弫濠氥€佸鑸垫櫜濠㈣泛锕崬鍫曟⒑閸濆嫭宸濋柛瀣枛椤㈡ê煤椤忓應鎷虹紓鍌欑劍宀e潡骞婇崘顔界厵闁惧浚鍋勬慨宥夋煟濞戝崬娅嶅┑顔瑰亾闂侀潧鐗嗗Λ宀勫箯婵犳碍鈷戠紒瀣濠€浼存煟閻曞倸顩紒顔硷躬閹囧醇濞戞鐩庢俊鐐€栭崝鎴﹀春閸曨倠锝夊箹娴e湱鍘介梺鎸庣箓閹冲骸危婵犳碍鎳氶柨婵嗩槹閸嬬姵绻涢幋鐐茬瑨濠⒀勭叀閺岋綀绠涢幘铏闂佸疇顫夐崹鍧楀箖濞嗘挸绾ч柟瀵稿С濡楁挾绱撴担鍝勪壕婵犮垺岣跨划鏃囥亹閹哄鍋撴笟鈧鎾偄娓氼垱绁梺璇插嚱缂嶅棝宕戦崱娑樺偍妞ゅ繐鐗婇埛鎴︽煕閹炬潙绲诲ù婊勭箘缁辨帞鎷犻幓鎺撴閻庤娲﹂崹鍫曠嵁閹烘嚦鏃€鎷呴崫鍕闂傚倷绀侀幉锟犲礉閹达箑绀夐幖娣灪濞呯姵绻涢幋娆忕仾闁绘挻鐩弻娑樷槈閸楃偞鐏撻梺鍛婄憿閸嬫捇姊绘担鍛婃儓闁哄牜鍓涚划娆撳箣閿曗偓閻撯€愁熆閼搁潧濮囩痪顓涘亾闂備胶绮崝妯间焊濞嗘搩鏁婇柟瀵稿仧缁♀偓闂佹眹鍨藉ḿ褎绂掑⿰鍫熺厽婵°倐鍋撻柨鏇ㄤ邯楠炲啴鏁撻悩鑼紜闂佸綊顣﹂悞锔剧礊鎼淬劍鈷戦柟顖嗗懐顔囧┑鐘亾闂侇剙绉甸崕妤佺箾閸℃ê濮夌紒鐘荤畺閺屾盯鍩勯崗鐙€浜畷婵嬪Χ婢跺鍘遍梺瑙勫劤閻°劎娆㈤崣澶堜簻妞ゅ繐瀚弳锝呪攽閳ュ磭鍩g€规洖宕灃闁告剬鍕枙婵犵绱曢崑鎴﹀磹瑜忕划濠氬箻缂堝懐绱伴悷婊勬閵嗕礁顫濋懜鍨珳闂佺硶鍓濋悷褔鎯侀崼婵冩斀妞ゆ梹鏋绘笟娑㈡煕濡寧顥夐柍璇茬Т楗即宕奸悢鍙夊闂備礁鎲$粙鎴︽晝閿曞倸鐓″鑸靛姈閻撴洖鈹戦悩鎻掍簽闁绘捁鍋愰埀顒冾潐濞叉粍鏅跺Δ鍛畾闁哄啫鐗嗘儫闂侀潧锛忛崘銊ь唺闂傚倷鑳堕幊鎾诲触鐎n喗鍋╂い蹇撶墕缁€澶屸偓鍏夊亾闁逞屽墰閸掓帞鎷犲顔藉兊闁哄鐗勯崝宀勫几閹达附鐓欓柛蹇撳悑閸庢鏌i幘宕囧ⅵ鐎殿噮鍋呯换婵嬪炊閵娧冨箞闂備礁鎼ú銏ゅ礉瀹€鍕€堕柨鐔哄У閻撶喖鏌熼幆褜鍤熼柍钘夘槹閵囧嫰顢橀埄鍐€婇梺鍦嚀鐎氫即骞冨⿰鍐炬建闁糕剝锕槐鎺戔攽閻樺灚鏆╅柛瀣洴楠炲﹥鎯旈埈銉︾☉閳藉顫濋褎缍楅梻浣告贡閸庛倕顫忛崷顓涘亾濮橆厼鍝洪柡灞诲€楅崰濠囧础閻愬樊娼绘俊鐐€х徊浠嬪箹椤愶腹鈧棃宕橀鍢壯囧箹缁厜鍋撻懠顒傛晨缂傚倸鍊烽懗鍓佸垝椤栫偞鏅濋柕蹇嬪€楀畵渚€鏌″搴″箹闁圭鍩栭妵鍕箻鐠虹儤鐎婚梺鍝勵儏閸婂灝顫忓ú顏勫窛濠电姴鍟ˇ鈺呮⒑缁嬫鍎忔俊顐g箞瀵偄顓奸崼銏㈡澑濠电偞鍨堕悷銏ゅ箯缂佹ḿ绠鹃柟鐐綑閻掑綊鏌涚€n偅灏扮紒缁樼⊕閹峰懘宕橀幓鎺濅紑婵炲濮靛畝绋款潖缂佹ɑ濯撮柛娑㈡涧濠€閬嶅焵椤掍胶鈻撻柡鍛█楠炲啴鏁撻悩铏闂佺粯枪鐏忔瑩鎮惧ú顏呪拺婵懓娲ら悘顕€寮搁鍛簻妞ゆ劑鍨洪崵鍥煛鐏炵偓绀嬬€规洜鍘ч埞鎴﹀炊閼告妫撻梻鍌欑缂嶅﹪寮ㄩ崡鐑嗘富闁芥ê顦藉ḿ鏍ㄧ箾瀹割喕绨奸柛銈嗗浮閺屾洟宕煎┑鍥ф闂佽瀛╅崕鎶藉煘閹达附鍋愭い鏃囧亹娴犻箖姊洪幐搴″摵闁哄苯绉剁槐鎺懳熺拠鑼紦闂備胶纭堕弲顏嗘崲濠靛棛鏆﹂柕濞炬櫓閺佸﹪鏌熼鍡楀暟椤撳ジ姊婚崒姘偓椋庣矆娓氣偓楠炲鏁撻悩鎻掔€銈嗙墱閸嬫稓澹曡ぐ鎺撶厸鐎广儱楠告禍鎰版煕鐎n偅灏い顐g箞閹瑩顢楅埀顒勵敂閿燂拷 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻娑樷槈濮楀牊鏁鹃梺鍛婄懃缁绘﹢寮婚敐澶婄闁挎繂妫Λ鍕⒑閸濆嫷鍎庣紒鑸靛哺瀵鈽夊Ο閿嬵潔濠殿喗顨呴悧濠囧极妤e啯鈷戦柛娑橈功閹冲啰绱掔紒姗堣€跨€殿喖顭烽弫鎰緞婵犲嫷鍚呴梻浣瑰缁诲倸螞椤撶倣娑㈠礋椤栨稈鎷洪梺鍛婄箓鐎氱兘宕曟惔锝囩<闁兼悂娼ч崫铏光偓娈垮枛椤兘骞冮姀銈呯閻忓繑鐗楃€氫粙姊虹拠鏌ュ弰婵炰匠鍕彾濠电姴浼i敐澶樻晩闁告挆鍜冪床闂備胶绮崝锕傚礈濞嗘挸绀夐柕鍫濇娴滄粍銇勯幘璺盒㈤柛妯侯嚟閳ь剚顔栭崰鏍€﹂悜钘夋瀬闁归偊鍘肩欢鐐测攽閻樻彃顏柡澶婃啞娣囧﹪鎮欓鍕ㄥ亾閺嶎偅鏆滃┑鐘叉处閸婂潡鏌ㄩ弴鐐测偓鍝ュ閸ф鐓欓柛鎾楀懎绗¢梺鎶芥敱閸ㄥ潡寮婚悢鍏煎殐闁宠桨妞掔划鑸电節绾版ǚ鍋撻悙钘変划闂佸搫鏈粙鎺旀崲濠靛纾兼繛鎴灻煎ǎ顕€鏌f惔銏╁晱闁哥姵鐩、姘愁樄闁糕斂鍎插鍕箛椤掑缍傞梻浣稿暱閹碱偊宕愰悷鎵虫瀺闁搞儺鍓氶埛鎺懨归敐鍥ㄥ殌妞ゆ洘绮庣槐鎺旀嫚閹绘巻鍋撳宀€浜辨繝鐢靛仦閸ㄧ喖骞婇悙鍝勭倞妞ゆ巻鍋撻崬顖炴偡濠婂啰绠冲瑙勬礋閹稿﹥绔熷┑鍡欑Ш闁轰焦鍔欏畷銊╊敊閽樺澹嶉梺璇茬箰缁绘劗鎹㈠Ο渚綎婵炲樊浜滃婵嗏攽閻樻彃顒㈤柣锝夋敱缁绘繈鎮介棃娑楃捕闂佹寧娲忛崐婵嬨€佸鑸垫櫜闁糕剝鐟ч惁鍫濃攽椤旀枻渚涢柛妯哄悑缁傚秴饪伴崼鐔叉嫼缂備礁顑堝▔鏇犵不娴煎瓨鐓熼柕濞у啫骞嬪Δ鐘靛仜缁绘垹鎹㈠┑鍡╂僵妞ゆ挾濮撮獮妤呮⒑绾懎顥嶉柟娲讳簽瀵板﹥銈i崘銊﹁緢闂佸啿鎼幊搴ㄥ礄閻樼偨浜滈煫鍥ㄦ尭椤忋倝鏌¢埀顒佺鐎n偆鍘撻梺闈涱槶閸斿矂鎯冨ú顏呯厽妞ゆ挾鍠撻幊鍕煙娓氬灝濡界紒缁樼箞瀹曟﹢鍩炴径姝屾闂佽姘﹂~澶娒洪敃鍌氱;濠电姴鍊婚弳锕傛煟閺冨倵鎷¢柡浣告閺屽秷顧侀柛鎾寸懇閸┿垹顓兼径濞⒀囨煕閵夈垺娅囬柨娑欑箖缁绘稒娼忛崜褎鍋ч梺鐑╁墲濡啫鐣烽棃娑掓瀻闁规儳顕崢钘夆攽鎺抽崐鎾绘倿閿斿彞鐒婃い鎾跺枂娴滄粓鏌¢崶鏈电敖缂佸宕电槐鎺旂磼濡偐鐣靛銈庡亝缁诲牓銆侀弽顓炵厴闁绘劦鍓氶悵姘舵⒑閸濆嫭婀版繛鍙壝銉╁礋椤栨岸鍞跺┑鐘绘涧閻楀懘鎯€椤忓牊鈷掑ù锝呮啞閹牓鏌涙繝鍕毈鐎规洘鍨块獮妯肩磼濡攱瀚介梻浣呵归張顒勬偡閵娾晛绀傜€光偓閳ь剟鎯€椤忓牜鏁囬柣鎰版涧閻撶喖鎮楃憴鍕缂侇喖鐭傞崺鐐哄箣閻橆偄浜鹃柨婵嗛娴滄繃绻涢崨顔解拻缂佽鲸鎹囧畷鎺戭潩椤戣棄浜鹃柣鎴eГ閸婂潡鏌ㄩ弴鐐测偓鍝ョ矆婢舵劖鐓涚€广儱楠搁獮妤呮煕鎼粹€愁劉闁靛洤瀚板浠嬪Ω閵夈儲鐦撴繝鐢靛仜閸氬鎮уΔ鍐╁床婵炴垶锕╅崯鍛亜閺冨洤鍚归柣鈺侀叄閹鎮烽悧鍫濇殘缂備浇顕ч崐鍧楀春閻愬搫绠i柨鏃囨娴滃綊姊洪崷顓犲笡閻㈩垪鏅犲畷婵囧緞閹邦厸鎷烘繛鏉戝悑閻熝囧箖婵傚憡鐓曢煫鍥ㄦ閼版寧顨ラ悙鎻掓殭閾绘牠鏌涘☉鍗炲箻妞は佸嫮绡€闁靛骏绲剧涵楣冩煥閺囶亞绋荤紒鏃傚枛瀵挳濮€閳锯偓閹风粯绻涙潏鍓у埌闁硅姤绮庣划鏃堟倻濡湱绠氬銈嗗姂閸庤尙娑甸崜浣虹<妞ゆ棁鍋愭晶娑㈡煙瀹勭増鍤囬柟鐓庣秺閺屽懎鈽夊杈ㄥ枓闂傚倸鍊风粈渚€骞栭銈囩煋闁哄被鍎辩粈澶愭倵閿濆骸澧€规洘鐓¢弻娑㈠焺閸愵亖濮囬梺缁樻尭缁绘﹢寮诲☉銏╂晝闁挎繂娲ㄩ悾鐢告⒑闁偛鑻晶顕€鏌熺拠褏纾跨紒顔碱儏椤撳ジ宕遍幇顑跨凹闂備礁鎲¢崝蹇涘棘娓氣偓楠炲繐煤椤忓懐鍘介柟鑲╄ˉ閸撴繄鎷归垾鏂ユ斀妞ゆ梻鍋撻弳顒勬寠閻斿鐔嗛悹杞拌閸庡秴霉濠婂嫮鐭掗柡灞诲姂瀵噣宕剁捄鐑橆唲闂備浇顕ф蹇曠不閹捐钃熸繛鎴欏灩閻撴﹢鏌涢…鎴濇灓濞寸姷鍘ч—鍐Χ閸℃ê纰嶉梺闈涚墢鏋柣锝囧厴瀹曪繝鎮欏鍥ф灈闁硅櫕鐗犻崺鐐侯敄閹€鍋撳┑鍡╂綎缂備焦岣块悷褰掓煃瑜滈崜娆忕幓閼愁垼妯侀梺闈╃到缂嶅﹤顫忓ú顏勫窛濠电姳鑳剁换渚€姊洪幖鐐插濠㈢懓妫濆顐︻敋閳ь剟鐛幒妤€绫嶉柛灞剧玻缁辨娊姊绘担鍛靛綊寮甸鍕殞濡わ絽鍟悞鍨亜閹烘垵顏存俊顐e灩缁辨帡顢欓懖鈺侇杸缂備焦顨堥崰鏍春閳ь剚銇勯幒鍡椾壕闂佷紮绲块崗姗€鐛崶顒€绾у璺烘憸閻愬﹪姊绘笟鈧ḿ褔鏁嶈箛娑樺窛妞ゆ牗鑹鹃懘顖炴⒒閸屾艾鈧绮堟担闈╄€块梺顒€绉甸幆鐐哄箹濞n剙濡肩紒鎰殜閺岀喖骞戦幇闈涙缂佺偓鍎抽…鐑藉蓟閻旇 鍋撳☉娆嬬細閻犳劏鏅濋幉鎼佹偋閸繄鐟ㄧ紓浣插亾闁稿瞼鍋為悡鏇㈢叓閸ャ劏澹樺ù婊冩贡缁辨帞鈧綆浜濋崰妯绘叏婵犲嫮甯涢柟宄版噽缁瑩鎳楅姘卞幋濠电姷鏁搁崑娑樜熸繝鍥х煑闁告劦鐓堥崵鏇炩攽閻樺磭顣查柡鍛絻椤法鎹勯悮瀛樻暰濡炪們鍎茬换鍫濐潖濞差亜鎹舵い鎾亾闁革富鍘搁崑鎾斥槈閹烘挻鐝氶悗瑙勬礃濞茬喖鐛Ο鑲╃<婵☆垵銆€閸嬫捇宕归銈囶啎闂佸壊鍋呯换鍕閵忋倖鐓涢悗锝庡墮閺嬪酣鏌嶇憴鍕伌闁诡喗鐟ч幏鐘侯槻濞村吋鍔曢—鍐Χ鎼粹€茬盎缂備胶绮敮鐐参i幇鏉跨闁瑰啿纾崰鎾诲箯閻樺樊鍟呮い鏃傛嚀娴滈箖鏌熼崜褏甯涢柍閿嬪灴閺岀喖顢涢崱妤佸櫧妞ゆ柨锕铏规兜閸涱喚褰ч梺鍦规晶浠嬪礆閹烘鏁囬柕蹇曞Х娴煎姊洪崫鍕偓鍫曞磿閺屻儱妫橀柍褜鍓熷缁樻媴閾忕懓绗¢梺鍛婃⒐閻楃偤濡甸幇鏉跨妞ゅ繐妫欓敍蹇涙偡濠婂嫭顥堢€殿喖顭烽弫鎰板川閸屾稒顥堢€规洘锕㈡俊鎼佸箛閳轰胶浼堥梺鍝勭焿缂嶄線寮幇鏉跨倞鐟滃秹鐛€n€棃鎮╅棃娑楃捕濠电偛妯婇崢濂割敋閿濆閱囬柡鍥╁仧椤斿洭鏌熼懝鐗堝涧缂佽鲸娲熸俊鍓佹崉鐞涒剝鏂€闂佹寧绋戠€氼剚绂嶆總鍛婄厱濠电姴鍟版晶鍨殽閻愭潙濮嶉柟绛圭節婵″爼宕堕埡鍐ㄥ箚闂傚倷鑳堕幊鎾活敋椤撱垹纾婚柣鏃傤儠閳ь剙鎳樺濠氬Ψ閿旀儳骞楅梻渚€鈧稑宓嗘繛浣冲嫭娅犳い鏍仦閻撴洘绻涢崱妤冪缂佺姵褰冭彁闁搞儜宥堝惈濡炪們鍨虹粙鎴︺偑娴兼潙绀冮柕濞垮€楃敮娑欑節閻㈤潧浠滈柣掳鍔庨崚鎺楀箻閸撲椒绗夐梺鍝勭▉閸樿偐绮婚弽銊ょ箚闁靛牆鍊告禍鎯ь渻閵堝骸浜濈紒璇茬墦楠炲啫鈻庨幙鍐╂櫌闂侀€炲苯澧存い銏℃閺佹捇鏁撻敓锟� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鐐劤缂嶅﹪寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閻愵剙鍔ょ紓宥咃躬瀵鎮㈤崗灏栨嫽闁诲酣娼ф竟濠偽i鍓х<闁绘劦鍓欓崝銈嗙節閳ь剟鏌嗗鍛姦濡炪倖甯掗崐褰掑吹閳ь剟鏌f惔銏犲毈闁告瑥鍟悾宄扮暦閸パ屾闁诲函绲婚崝瀣уΔ鍛拺闁革富鍘奸崝瀣煕閵娿儳绉虹€规洘鍔欓幃娆撴倻濡桨鐢绘繝鐢靛Т閿曘倝宕幍顔句笉闁煎鍊愰崑鎾斥枔閸喗鐏嶆繝鐢靛仜閿曨亜顕i锕€绀冩い鏃囧亹閿涙粌鈹戦悙鏉戠仸闁煎綊绠栭悰顕€宕奸悢鍓佺畾闂佺粯鍔︽禍婊堝焵椤戞儳鈧繂鐣烽姀锛勵浄閻庯綆浜滈悗顓㈡⒑閸撹尙鍘涢柛瀣閵嗗懘宕f径宀€鐦堥梻鍌氱墛娓氭宕曢幇鐗堢厽闁规儳鐡ㄧ粈鍐磼缂佹ḿ娲寸€规洖宕灃闁告劦浜堕崬铏圭磽閸屾瑨鍏屽┑顔芥尦閳ワ箓鎮滈挊澶庢憰闂佺偨鍎辩壕顓㈠汲閸℃稒鐓冪憸婊堝礈閻旈鏆﹀ù鍏兼綑缁犲鏌ら崨濠庡晱婵炶偐鍠栧娲捶椤撶偛濡哄銈冨妼閹虫﹢鏁愰悙鍝勫窛閻庢稒岣块崢钘夆攽閳藉棗鐏ユ繛鍜冪秮閺佸秴顓奸崥銈囨嚀楗増鎯斿┑鍫熸櫦缂傚倷娴囨ご鎼佸箲閸パ呮殾闁圭儤鍨熼弸搴ㄦ煙閻戞ê鐏ラ悽顖e灠閳规垿鎮╅幇浣告櫛闂侀潻缍囩徊璺ㄥ垝婵犳艾鍐€妞ゆ挾鍠愬▍婊堟⒑缂佹ê濮堟繛鍏肩懅濞嗐垽鎮欓悜妯煎幍闂備緡鍙忕粻鎴﹀礉閿曞倹鐓ラ柡鍥╁仜閳ь剙缍婇幃锟犲即閵忥紕鍘搁梺鎼炲劘閸庤鲸淇婃總鍛婄厽闊洦娲栧暩缂備浇椴哥敮锟犲箖閳轰胶鏆﹂柛銉e妼閸ㄩ亶姊绘担鍛婃儓闁哄牜鍓熼幆鍕敍閻愵亖鍋撴笟鈧鎾閳╁啯鐝抽梻浣虹《閸撴繈鎮烽姣硷綁鎮ч崼婊呯畾闂佺粯鍔︽禍婊堝焵椤掍焦绀冩い銊e劦瀹曨偊濡疯閻撳姊洪懡銈呮灈闁稿锕ゅ玻鍧楀冀椤撶喓鍙勯棅顐㈡处閹歌崵鎷归敓鐘崇厽妞ゆ挾鍠撻幊鍕磼缂佹ḿ娲寸€规洖宕灒闁告繂瀚闂傚倷绀侀幉锟犲箰妤e啫纾婚柟鎹愬煐瀹曞弶绻涢幋鐐茬劰闁稿鎸搁埥澶娾枎鐎n剛绐楅梻浣规た閸樺綊宕愰弴銏$畳婵犵數濮撮敃銈囪姳閼测晞濮崇紓浣骨滄禍婊堟煛閸ユ湹绨介柟顔笺偢閺岀喐顦版惔鈱掋垽妫佹径鎰€甸柨婵嗛娴滆姤绻涢崗鍏碱棃婵﹦绮粭鐔煎焵椤掆偓宀h儻顦撮柟骞垮灲楠炴帡骞橀弶鎴濅紟闂備礁澹婇崑渚€宕曟潏銊ュ姅闂傚倷鐒︾€笛兾涙担鍓叉禆闁靛ě鍡椥℃繝鐢靛У绾板秹鍩涢幋锔界厱婵犻潧妫楅鈺呮煃瑜滈崜姘跺箖閸岀偛绠栨俊顖濄€€閺€浠嬫煕椤愮姴鐏い锔诲灦濮婃椽宕崟顓夌娀鏌涢弬璺ㄐх€规洩缍€缁犳稑鈽夊▎蹇庣敾婵犵數鍋涘Λ妤冩崲閹伴偊鏁傞悗娑欋缚缁犻箖鏌涢銈呮灁闁活厽甯¢弻鈥崇暆閳ь剟宕伴弽顓溾偓浣糕枎閹炬潙浜楅柟鑲╄ˉ閹筹綁鍩℃担鍕煥铻栧┑鐘辫兌閼虫椽姊洪崨濠庢當闁哥喎娼¢幃楣冩倻閽樺)鈺呮煃閸濆嫸鏀婚柡鍜冪秮閹嘲饪伴崘顕呪偓妤冩偖濞嗗浚鐔嗛柤鎼佹涧婵牓鏌嶉柨瀣仸闁逛究鍔戦幃鐑芥偋閸喐鍊烽梻浣虹帛鐢顪冩禒瀣摕婵炴垯鍨规儫闂佸疇銆€閸嬫捇鏌熼弻銉х暫闁哄本娲熷畷鍗炍旈埀顒勫汲閻愮數纾肩紓浣贯缚缁犵偟鈧娲樼敮鈩冧繆閸洖宸濇い鏇炴噹閹亪姊婚崒姘偓椋庣矆娓氣偓楠炴牠顢曢妶鍡椾粡濡炪倖鍔х粻鎴犲閸ф绾ч柛顐g濞呭洤鈽夐幘宕囆ч柡宀嬬秮閹垻绮欓幐搴e浇闁荤喐绮庢晶妤冩暜濡ゅ懎鐤鹃柡灞诲劜閻撴洘绻涢幋婵嗚埞闁哄濡囬惀顏堫敇濞戞ü澹曢梻鍌氬€搁崐椋庣矆娓氣偓楠炲鏁撻悩鍐蹭画闂侀潧顦崕娆忊槈濡攱鏂€闂佺硶妾ч弲婊呯礊鎼淬劍鈷戦柟顖嗗懐顔囧┑鐘亾閺夊牃鏅涢ˉ姘舵煕韫囨稒锛熺紒璇叉閵囧嫰寮介妸褏鐣甸梺鍛婁亢椤濡甸崟顖涙櫆闁告繂瀚慨锕€鈹戦纭烽練婵炲拑绲块崚鎺戔枎閹惧磭顦遍梺鐐藉劚閸樻牜妲愰敐鍡欑瘈闁汇垽娼цⅴ闂佺ǹ顑嗛幑鍥ь潖濞差亶鏁嗛柍褜鍓涚划鏃堝箻椤旇棄鈧潡鏌涢…鎴濅簴濞存粍绮撻弻鐔煎传閸曨厜銉╂煕韫囨挾鐒搁柡灞剧洴閹垽宕妷銉ョ哗闂備礁鎼惉濂稿窗閺嵮呮殾婵炲棙鎸稿洿闂佺硶鍓濋〃蹇斿閿燂拷

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-18 14:26

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部