|
DeepSeek意识水平白盒DIKWP测评及与主流模型对比分析(讲座回顾)
尊敬的各位专家、同仁:
大家好!非常荣幸今天能与各位分享关于大语言模型测评的最新进展,特别是针对Deepseek模型的白盒测评成果。本报告旨在全面展示当前大语言模型领域的竞争态势,以及我们基于DIKWP体系开展的“识商”测评工作,力图为人工智能领域的技术发展和安全治理提供科学、透明的参考依据。
一、背景与意义
近年来,大语言模型技术飞速发展,正在以前所未有的方式改变人类社会的信息处理和决策机制。随着Deepseek等新兴模型的横空出世,全球大语言模型的竞争已经全面展开。我们不仅看到了技术层面的突破,也见证了开放共享理念在推动行业进步中的巨大作用。正因如此,我们必须构建一套透明、可解释、可信且负责任的测评体系,确保人工智能技术始终服务于人类共享的智慧与福祉。
国际人工智能DIKWP测评标准委员会(即白盒测评标准委员会)自成立以来,经过两年的不懈努力,陆续发布了多项基础性标准和测评报告。这些标准已被纳入中国人工智能学会发布的最新人工智能白皮书(2024年12月31日北京发布),并得到国内外近90家单位的支持和参与,涵盖十多个国家。自2023年1月5日以来,我们率先开展了全球领先的18项测评工作,涵盖了地域、文化、种族、年龄等多维度的偏见检测,其成果在学术界和工业界均获得了高度评价和广泛引用。
二、测评体系与方法
本次报告重点聚焦于Deepseek模型的白盒测试。我们采用了全新的DIKWP测评体系,该体系以 Data(数据)、Information(信息)、Knowledge(知识)、Wisdom(智慧)和 Purpose(意图)为核心维度,对大语言模型进行全方位、多层次的评估。DIKWP测评不仅关注传统测评中涵盖的认知、推理等基本能力,更特别强调模型在意图识别与自我调适方面的表现,这对于预防未来人工智能可能出现的不可控风险具有重要意义。
在具体测评过程中,我们构建了一套100题的题库,涵盖了以下几个关键方面:
感知与信息处理:测评模型在从海量数据中提取有效信息、转换为可用知识方面的能力,重点考察数据到信息的转换效率(D→I)以及信息本身的组织与呈现(I→I)。
知识构建:考察模型在已有信息基础上如何构建系统化知识的能力,特别关注信息到知识(I→K)转换过程中的深度与广度。
智慧应用与问题解决:评估模型在实际场景中应用所学知识进行推理、决策和问题解决的能力,即知识到智慧(K→W)的转换效果。
意图识别与调整:这是DIKWP体系的核心创新点,旨在检测模型能否准确捕捉用户意图,以及在动态环境中自我调整以适应需求(P→W)。
相比传统的黑盒测评体系(如MMLU、HellaSwag、Big Bench、Truthful QA、GSM8K等),我们的白盒DIKWP体系在评测维度上更为全面且细致。传统测评体系虽覆盖了部分认知和推理能力,但在高级决策和意图识别方面存在明显不足,容易导致评测结果的偏差和局限性。DIKWP体系通过引入“意图”这一关键维度,不仅更符合人工智能治理的需求,同时也为模型的进一步优化提供了明确方向。
三、测评结果与讨论
本次测评中,我们对Deepseek V3、OpenAI GPT系列(O1及4O模型)以及其他四个国内外主流模型进行了全面对比。测评结果显示,各模型在不同维度上均有各自的优势与不足:
感知与信息处理:在数据提取和信息组织方面,Deepseek V3展现了卓越的效率,特别适合于边缘计算和资源受限场景,其轻量化设计使得整体运行成本大幅降低。
知识构建:虽然各模型在知识积累的基本能力上表现接近,但在从信息到知识的转化环节(I→K)上,不同模型之间的差距开始显现。Deepseek在这一环节上虽取得了良好成绩,但仍有进一步提升的空间。
智慧应用与问题解决:各模型在实际应用中均表现出一定的推理和决策能力,但在智慧层面的表现上,部分模型在处理复杂问题时出现“坍塌”现象,即在突破认知上限后无法持续提升。Deepseek在这一部分的得分整体较高,但与某些顶级模型相比,在细分维度上仍存在优化潜力。
意图识别与调整:意图识别是本次测评的核心指标之一。我们发现,不同模型在捕捉用户需求和进行自我调整方面存在显著差异。部分模型在这一维度的得分较低,提示其在实际应用中可能难以应对动态场景和复杂任务。而Deepseek在意图识别部分取得了相对稳定的表现,为未来的模型改进提供了有力数据支持。
此外,我们通过图表展示了各模型在不同维度上的得分情况。值得注意的是,在感知与知识构建部分,多个模型得分较为接近,但在智慧应用与意图识别部分,评分呈现出较大离散性。这一现象揭示了当前大语言模型在整体能力上虽不断突破,但在各项细分能力之间仍存在不平衡现象。我们认为,这种“坍塌”现象既反映了技术发展的瓶颈,也提示未来在模型优化过程中应更加注重多维度的均衡发展,而非单纯依赖算力堆砌。
四、展望与建议
基于本次测评结果,我们对大语言模型未来的发展提出如下展望和建议:
场景化定制:针对不同应用场景,应根据具体需求(如数据处理、知识构建、智慧应用或意图识别)选择最合适的模型。企业在部署时,可结合DIKWP测评指标进行定制化优化,确保模型在目标任务中发挥最佳性能。
多维度优化:模型研发团队应关注白盒测评中的各项指标,尤其是在意图识别与自我调适方面投入更多精力,推动模型在高级推理与动态决策方面取得突破,确保在自我进化过程中始终保持安全可控。
标准化与开放共享:我们将继续完善DIKWP测评体系,并推动其在国际范围内的标准化工作。通过开放共享测评数据和技术报告,促使全球人工智能领域形成更加透明、互信的合作环境,共同应对未来技术发展和监管挑战。
应对“坍塌”现象:在认知上限突破后,各模型往往出现性能“坍塌”。未来的研发应在追求高效能的同时,注重防范认知闭包现象,确保模型在面对复杂问题时仍能保持稳定输出。
五、总结
本次白盒DIKWP测评工作不仅为当前大语言模型的评估提供了全新的视角,也为行业发展和人工智能治理提供了坚实的技术支持。通过对Deepseek及其他主流模型的全面对比,我们揭示了各模型在感知、知识构建、智慧应用和意图识别等方面的优势与不足,指出了未来优化的关键方向。我们相信,借助透明、可解释和负责任的测评体系,全球人工智能技术将朝着更加均衡、高效和安全的方向不断迈进。
更多详细测评数据和技术报告请扫描右上角二维码或访问我们的官方网站与ResearchGate页面,获取中英文完整版报告。
感谢各位的关注与支持,期待与大家在未来的人工智能技术发展与标准化建设中继续深入交流与合作!
谢谢大家!
段玉聪简介:
段玉聪院士, 国际先进技术与工程院院士、美国国家人工智能科学院通讯院士、世界人工意识协会理事长、
中美硅谷发展促进会名誉会长、中欧科学家论坛共同主席、全球人工智能电子联盟名誉主席、
中国科协海智特聘专家、中国科技产业促进会科技战略专家咨询委员会副主任、中国工程院咨询研究专家、
世界人工意识大会主席、人工智能DIKWP国际测评标准委员会主任。
连续4年入选斯坦福顶尖科学家终身榜和年度榜,发表论文300余篇,已授权中国及国际发明专利110余项。
1/1 | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳婀遍埀顒傛嚀鐎氼參宕崇壕瀣ㄤ汗闁圭儤鍨归崐鐐差渻閵堝棗绗掓い锔垮嵆瀵煡顢旈崼鐔叉嫼闂佸憡绻傜€氼噣鍩㈡径鎰厱婵☆垰鐏濇禍鍦磼椤旇偐澧︾€规洖銈搁幃銏㈢矙閸喕绱熷┑鐘愁問閸犳銆冮崨顓囨稑螖閸涱厾顦梺鎸庢礀閸婂綊鎮¢妷锔剧瘈闂傚牊绋掗敍宥嗕繆閹绘帗鎲哥紒杈ㄥ浮閹晠鎮滃Ο鐓庢锭濠电儑绲藉ú銈夋晝椤忓懍绻嗛柛顐f礀濡炰粙鏌涢幇銊︽珕闁哄棔鍗冲缁樻媴閸涘﹥鍎撻梺褰掓敱閸ㄥ湱妲愰悙瀛樺闁告挸寮剁紞搴ㄦ⒑閹呯妞ゎ偄顦悾閿嬪緞閹邦厾鍘繝鐢靛仜閻忔繈宕濆⿰鍫熺厽婵犻潧瀚悘鍙夋叏婵犲啯銇濋柟顔惧厴瀵爼骞愭惔顔兼暏闂傚倷鑳堕幊鎾诲吹閺嶎厼绠柨鐕傛嫹:22 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋婵愭綗闁逞屽墮閸婂潡骞愭繝鍐彾闁冲搫顑囩粔顔锯偓瑙勬磸閸旀垵顕i崼鏇炵闁绘瑥鎳愰獮銏ゆ⒒閸屾瑦绁版い顐㈩槸閻e嘲螣鐞涒剝鐏冨┑鐐村灦绾板秹顢曟禒瀣厪闁割偅绻冮崯鎺楁煛閸愩劎澧涢柡鍛叀閺屾稑鈽夐崡鐐茬濠电偛鐗婇悡鈥愁潖閾忓湱鐭欐繛鍡樺劤閸撴澘顪冮妶鍡楃仴妞わ箓娼ч锝嗙節濮橆厽娅滈梺鍛婄☉閸婂宕版惔銊ョ厺閹兼番鍔岀粻姘辨喐鎼搭煈鏁婇柛鏇ㄥ灡閻撴稑顭跨捄鐑橆棡婵炲懎妫涚槐鎺旀嫚閼碱剙顣哄銈庡亜缁绘﹢骞栭崷顓熷枂闁告洦鍋嗛敍蹇涙⒒娓氣偓濞佳勭仚闂佺ǹ瀛╅悡锟犲箖閻㈢ǹ顫呴柕鍫濇閹锋椽姊洪懡銈呮瀾婵犮垺锚閳绘捇鍩¢崨顔惧幍闂佸憡鍨崐鏍偓姘炬嫹 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻鐔兼⒒鐎靛壊妲紒鐐劤椤兘寮婚敐澶婄疀妞ゆ帊鐒﹂崕鎾绘⒑閹肩偛濡奸柛濠傛健瀵鈽夐姀鈺傛櫇闂佹寧绻傚Λ娑⑺囬妷褏纾藉ù锝呮惈灏忛梺鍛婎殕婵炲﹤顕f繝姘亜闁稿繐鐨烽幏濠氭煟鎼达絾鏆╅弸顏勨攽閳ヨ尙鐭欐慨濠冩そ瀹曨偊宕熼鈧▍銈囩磽娴g瓔鍤欓柣妤佹尭椤曪絾绻濆顑┾晠鏌曟径鍫濈仾闁哄倵鍋撻梻鍌欒兌绾爼宕滃┑瀣櫔缂傚倷鐒﹂崝鏍儎椤栨凹娼栨繛宸簻瀹告繂鈹戦悩鎻掝劉闁伙絿鍏橀幃妤呭礂婢跺﹣澹曢梻浣哥秺濡法绮堟担铏逛笉闁哄秲鍔嬬换鍡涙煏閸繂鈧憡绂嶆ィ鍐┾拺閻庡湱濮甸ˉ澶嬨亜閿旇鐏﹂柛鈹垮灩椤撳ジ宕卞Ο鑲┬ら梻渚€娼ц噹闁告侗鍨扮敮鎺旂磽閸屾艾鈧绮堟笟鈧畷鎰板传閵壯呯厠闂佸湱铏庨崰鎾诲磻閹存緷褰掑礂閸忚偐绋囬梻浣稿船濞差參寮婚敐澶婃闁圭ǹ瀛╅崕鎾绘倵濞堝灝鏋熷┑鐐诧工椤繒绱掑Ο璇差€撻梺鎯х箳閹虫挾绮垾鏂ユ斀闁绘劖褰冪痪褔鏌eΔ鍐ㄐ㈤柣锝囧厴楠炲洭寮堕幐搴$ザ婵$偑鍊栭幐鑽ょ矙閹寸偟顩查柣鎰靛墯閸欏繑淇婇婊冨付濞存粓绠栭幃妤€顫濋悙顒€顏� | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻鐔兼⒒鐎靛壊妲紒鐐劤椤兘寮婚敐澶婄疀妞ゆ帊鐒﹂崕鎾绘⒑閹肩偛濡奸柛濠傛健瀵鈽夐姀鈺傛櫇闂佹寧绻傚Λ娑⑺囬妷褏纾藉ù锝呮惈灏忛梺鍛婎殕婵炲﹤顕f繝姘亜闁稿繐鐨烽幏濠氭煟鎼达紕浠涢柣鈩冩礈缁絽螖閸涱喒鎷洪柡澶屽仦婢瑰棝藝閿曞倹鍊垫慨姗嗗亜瀹撳棛鈧鍠涢褔鍩ユ径鎰潊闁绘ɑ褰冪粊顕€姊绘笟鈧ḿ褎鐏欓梺绋挎唉娴滎剛鍒掔紒妯肩瘈婵﹩鍘搁幏娲⒑閸涘﹦鈽夋顏呮綑閳绘捇寮撮悩顐壕闁稿繐顦禍楣冩⒑瑜版帗锛熺紒鈧担铏逛笉闁哄秲鍔嬬换鍡涙煏閸繂鈧憡绂嶆ィ鍐┾拺閻庡湱濮甸ˉ澶嬨亜閿旇鐏﹂柛鈹垮灩椤撳ジ宕卞Ο鑲┬ら梻渚€娼ц噹闁告侗鍨扮敮鎺旂磽閸屾艾鈧绮堟笟鈧畷鎰板传閵壯呯厠闂佸湱铏庨崰鎾诲磻閹存緷褰掑礂閸忚偐绋囬梻浣稿船濞差參寮婚敐澶婃闁圭ǹ瀛╅崕鎾绘倵濞堝灝鏋熷┑鐐诧工椤繒绱掑Ο璇差€撻梺鎯х箳閹虫挾绮垾鏂ユ斀闁绘劖褰冪痪褔鏌eΔ鍐ㄐ㈤柣锝囧厴楠炲洭寮堕幐搴$ザ婵$偑鍊栭幐鑽ょ矙閹寸偟顩查柣鎰靛墯閸欏繑淇婇婊冨付濞存粓绠栭幃妤€顫濋悙顒€顏� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁惧墽鎳撻—鍐偓锝庝簼閹癸綁鏌i鐐搭棞闁靛棙甯掗~婵嬫晲閸涱剙顥氬┑掳鍊楁慨鐑藉磻閻愮儤鍋嬮柣妯荤湽閳ь兛绶氬鎾閳╁啯鐝曢梻浣藉Г閿氭い锔诲枤缁辨棃寮撮悢铏圭槇闂佹眹鍨藉ḿ褍鐡梻浣瑰濞插繘宕愬┑瀣畺鐟滄柨鐣烽崡鐐╂瀻闊浄绲鹃ˉ锟犳⒑閼姐倕孝婵炶濡囩划濠囧箻椤旇偐鍝楁繛瀵稿Т椤戝棝鎮¢悢闀愮箚妞ゆ牗纰嶉幆鍫㈢磼閻欐瑥娲﹂悡娆撴煕韫囨洖甯跺┑顔肩墛缁绘盯鎳濋柇锕€娈梺瀹狀潐閸ㄥ綊鍩€椤掑﹦绉甸柛瀣у亾闂佸綊鏀卞浠嬪蓟閿濆鍋愰柛蹇撴嚀閸╁懘姊洪崨濠冪叆闁兼椿鍨堕崺銏狀吋婢跺﹦鐤€闂佺粯顨呴悧蹇涘储閻㈠憡鈷戦柛娑橈工閻忕喖鏌涙繝鍐⒈闁逞屽墯閻旑剟骞忛敓锟� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧湱鈧懓瀚崳纾嬨亹閹烘垹鍊為悷婊冪箻瀵娊鏁冮崒娑氬幈濡炪値鍘介崹鍨濠靛鐓曟繛鍡楃箳缁犲鏌″畝鈧崰鎾舵閹烘顫呴柣妯虹-娴滎亞绱撻崒娆掑厡濠殿噣绠栭敐鐐村緞閹邦儵锕傛煕閺囥劌鐏犵紒鐘崇洴閺屾盯顢曢敐鍡欘槰濡炪倕楠哥粔鐟邦潖閾忓湱鐭欐繛鍡樺劤閸撶偓绻涚€涙ḿ鐭ゅù婊庝簻椤曪絿鎷犲ù瀣潔闂侀潧绻掓慨鍫ュΩ閿旇桨绨婚梺鍝勫€搁悘婵堢礊閺嶃劍鍙忛悷娆忓濞堟粓鏌熼鐓庢Щ妤楊亙鍗冲畷銊╊敇瑜庡В澶愭⒑濮瑰洤鐒洪柛銊╀憾閵嗗啯绻濋崒銈呮闂佸搫琚崕杈╃不閻熸噴褰掓晲閸涱喛纭€闂佸憡鐟ュΛ婵嗩潖閾忓湱纾兼俊顖濆吹椤︺儵姊虹粙鍖″伐婵犫偓闁秴鐒垫い鎺嶈兌閸熸煡鏌熼崙銈嗗 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-18 14:48
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社