|
人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准
(2024-05-14征集建议版)
编委单位:(不分先后,按首字母排序)
AIII人工智能国际研究院、AGI-AIGC-GPT评测DIKWP(全球)实验室、Institute of Management Sciences Peshawar、Blue Edu、北京大学、北京科技大学、北京社科院、北京标准化研究院、成都信息工程大学、重庆警察学院、东莞研华精密制造有限公司、广西师范大学、国家电网、海南大学、海南核电有限公司、海南普适智能科技有限公司、海南省市场监督管理局、海南医学院第二附属医院、华为编程语言实验室、华中农业大学、极氪汽车、江苏立卓信息技术有限公司、肯思德(珠海)有限公司、辽宁省辽阳市人民检察院、南京警察学院、内蒙古大学、宁波大学、清华大学研究院、山东大学、山西省工业和信息厅、上海航天信息科技研究院、上饶师范学院、深信服公司、世界人工意识协会、世界人工意识大会、太极计算机股份有限公司、腾讯研究院、西安理工大学、西南政法大学、粤港澳大湾区标准化研究中心、中国标准化研究院标准化理论战略研究所、中国机电一体化技术应用协会、中国信息通信研究院等
目录
DIKWP(Data-Information-Knowledge-Wisdom-Purpose)国际网馈测评标准的制定旨在应对人工智能评测基准多样且成熟度不一的问题,为业界提供一个统一、严谨、普适的评估框架,从而确立一套标准化的评测方法、模型与指标体系,确保对人工智能模型性能的评估具有可比性和一致性。DIKWP国际网馈测评标准从数据、信息、知识、智慧、意图五个核心要素出发,突破概念空间语义约束面向认知空间构建网络化评估体系,全面考察人工智能在不同认知网络上的理解和处理能力,其目的不仅在于突破黑盒测试的局限,为被测试的人工智能模型提供功能性或者指标性的白盒测试结果,还为该被测模型的改进提供参考依据。人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准特别关注模型的公平性、公正性、平等性,通过检测和评估潜在偏见,积极推动AI技术遵循伦理原则和社会价值,致力于减少歧视与不公现象。
在全球范围内对人工智能的评估涉及各种基准,旨在衡量各种能力并使其与人类价值观保持一致。GLUE Benchmark[1]提供了一组标准化的不同NLP任务,以评估不同语言模型的有效性。作为通用语言理解评估的行业标准,凭借其广泛应用、包含情感分析、问答等在内的多样化任务集,以及为模型间提供公平比较的平台,确立了其在评估语言模型性能方面的核心地位。然而,该基准也存在显著不足,如任务覆盖面有限,可能无法完全捕捉语言理解的全貌;数据集可能存在偏差,可能影响模型评估的公正性;以及模型在追求高GLUE分数时可能过度优化特定任务,导致泛化能力受损。SuperGLUE Benchmark[2]作为GLUE的升级版,显著提升了任务难度,涵盖了更多样化且更深层次的语言理解需求,并通过引入人类水平基线,直观展示了AI在语言理解领域的进展。但是,SuperGLUE的复杂性较高,对计算资源需求较大,同时其数据集存在偏差问题,这也是继承自GLUE的一个持续挑战。HellaSwag[3]是专门针对文本生成评估的基准,该基准通过设计专门针对文本连贯性和逻辑性的任务,有力推动了相关技术的发展。然而,其应用范围相对狭窄,主要聚焦于文本生成任务,且完成句子的范例可能存在引导性,可能对模型表现评估的准确性产生干扰。TruthfulQA[4]以其独特之处——直接评估模型输出的真实性,特别适用于那些高度关注答案真实性的场景,如新闻生成。虽然采用了创新的评估方式,但TruthfulQA的评价过程主观性较强,且仅关注真实性而忽略了语言理解能力的其他方面,限制了其全面性。MMLU[5]提供了广泛的领域和任务覆盖,利用大规模数据集对模型的多任务处理能力进行深入、全面且可靠的评估。因此,MMLU对计算资源要求较高,平衡多个任务间的评估也是一个挑战,这使得部分资源有限的研究团队可能难以有效利用此基准。
如今人工智能评基准“百家争鸣”虽然它们在评估人工智能模型性能方面各自彰显独特价值,但其局限性也是显而易见的。构建一个完备、公正且能应对未来研究挑战的人工智能国际测评标准是迫切需求。DIKWP模型是一个描述数据、信息、知识、智慧、意图间网络化关系模型,其中每一种关系都受到目标或者意图的引导,其能够将认知空间、意识空间、语义空间和概念空间关联到一起。以此为基础,人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准涵盖了语义理解、综合处理、偏见测评、对齐测评和意识能力等多个层面和维度,细致考察数据、信息、知识、智慧和意图的理解能力,确保对人工智能模型的认知能力进行全方位、多层次的透彻分析。除了语言理解与生成能力外,人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准特别关注模型在处理不确定性、识别与消除偏见、价值对齐及意识模拟等方面的表现,体现对AI伦理、公平性的重视。人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准以全面、深度、多维度、精细化、适应性及公平公正原则为特色,为人工智能模型的性能评估提供了科学、严谨、实用且前瞻的框架,有望推动AI技术的健康发展与应用。
随着人工智能技术的快速发展和大语言模型的兴起,人们与智能系统的交互方式正在发生改变。人工智能模型在各种应用中展现了其前所未有的性能,同时对模型的评估也备受社会各界的关注。当前,人工智能模型的测评基准呈现出多元化的态势,各种专门针对不同维度性能设计的基准层出不穷,例如GLUE、SuperGLUE、CLUE、SuperCLUE等用于测试语言理解与生成能力,而针对特定领域如智能运维则有Owl-Bench这类专用基准。此外,还有针对大模型安全性、伦理风险、公平性等方面的测评基准,反映了业界对模型全面质量把控的重视。然而,鉴于各测评基准的发展水平与成熟度参差不齐,研究人员在选用和参照时面临一定的挑战,需要结合具体应用场景审慎评估和选择合适的测评工具与标准。面对众多科研团队和企业相继推出的人工智能模型测评基准,通过一套较为全面、系统、公平、使用的评估指标和测评方法,指引和推动人工智能模型的研发与测评工作是相关领域人员的共同呼声和迫切需求。AGI-AIGC-GPT评测DIKWP(全球)实验室联合长期从事人工智能研究的专家学者,编制起草“DIKWP(Data-Information-Knowledge-Wisdom-Purpose) 国际网馈测评标准”,力求构建一套具有一定前瞻性、具备试行条件的人工智能国际测评基准。
本文件说明了用于人工智能模型测评的人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准的相关术语和定义,描述了DIKWP评估人工智能模型的框架,提出了模型测评的DIKWP指标、DIKWP测评方法以及典型的应用案例。
本文适用于服务提供商、用户和第三方测试机构对人工智能模型测试的设计和实施等工作。
下列文件的内容通过文中的规范性引用而构成本文件的相关条款。
DIKWP模型是一个扩展了传统的DIKW(数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom))模型的网馈模型,增加了"意图"(Purpose)这个元素。DIKWP模型是一种能够形象地描述认知过程的网络化模型,其将数据、信息、知识、智慧、意图五个环节紧密相连,共同构成了一个跨越认知空间、意识空间、语义空间和概念空间的认知概念-语义关联交互过程。
图3-1 DIKWP关系架构图
图3-2 DIKWP定义元模型
图3-3 概念空间、认知空间、语义空间架构图
学术定义:
数据(DIKWP-Data)的语义是认知中相同语义的具体表现形式。在概念空间中,数据概念作为一个概念代表着具体的事实或观察结果在概念认知主体的概念空间中的存在语义确认,并通过与认知主体的意识空间(非潜意识空间)与已有认知概念对象的存在性包含的某些相同语义对应而确认为相同的对象或概念。在处理数据概念时,认知主体的认知处理过程常常寻求并提取标定该数据概念的特定相同语义,进而依据对应的相同语义将它们统一视为一个相同概念。例如,当看到一群羊时,虽然每只羊可能在体型、颜色、性别等方面存在不同,但借助准确的相同语义个体对应或对相同语义集合的概率性对应处理,认知处理会将它们归入“羊”的概念,因为它们共享了对“羊”这个概念的语义精确对应或概率性对应。相同语义可以是具体的,如识别手臂概念时可以根据一个硅胶手臂与人的手臂的手指数量的相同、颜色的相同、手臂外形的相同等相同语义进行基于语义的准确概念确认硅胶手臂为手臂概念,也可以概率性的选择与手臂概念共享最多相同语义的目标对象为手臂概念,还可以通过硅胶手臂不具有真实手臂的也可以旋转功能对应的由“可以旋转”定义的相同语义进行概念判断的否决,而判定其不是手臂数据概念。
数据为认知中相同语义的具体表现形式。将数据D对应集合,每个元素代表一个具体实例,这些实例共享相同的语义属性S。语义属性S为一组特征f来定义,即:
,其中表示数据的一个特征。。
一般定义:
数据是指日常生活中具体事实和观察结果的记录,它们是构成了认识世界的最基本单元。例如,从一只动物的外观特征,如羊毛、角和蹄子,能够辨认出这是“羊”,尽管个体间有差异,共享的关键特征让它们被统一归类。
学术定义:
信息(DIKWP-Information)作为概念对应认知中一个或多个“不同”语义。信息概念的信息语义指的是通过特定意图概念或意图语义将认知主体的认知空间中的DIKWP认知对象与认知主体已经认知的DIKWP认知对象在语义空间进行语义关联,借助认知主体的认知意图在认知空间形成相同认知(对应数据语义)或差异认知,由差异认知在语义空间经过“不同”语义的概率性确认或逻辑判断确认等形成信息语义,或在语义空间产生新的语义关联(“新的”就是一种“不同”语义)。在处理信息概念或信息语义时,认知处理会根据输入的数据、信息、知识、智慧或意图等认知内容,找出它们与被认知的DIKWP认知对象的不同之处,对应各种不同的语义,并进行信息分类。例如,在认知空间中,面对一个停车场,尽管停车场中所有的汽车都可以被认知归入“汽车”这一概念,但每辆车的停车位置、停车时间、磨损程度、所有者、功能、缴费记录和经历都代表着语义空间中由不同认知意图驱动的认知差异识别,最终对应不同的信息语义。信息对象对应的各种不同语义经常存在于认知主体的认知中,常常未被显式表达出来,例如抑郁症患者可能用自己情绪“低落”这一概念来表达自己认知空间中当前的情绪相对自己以往的情绪的负面程度的上升。在认知主体在其概念空间中选择“低落”这个概念以反映其认知状态确认的要表达的目标信息语义,但由于交流对象的认知空间中对“低落”这个概念的信息语义解释不一定与认知主体的信息语义相同,或者说存在不同语义,从而不能实现对被交流对象客观感受到该信息语义,从而该信息语义成为了认知主体的主观的认知信息语义。
信息语义处理的数学化表示:信息语义在DIKWP模型中对应数据语义、信息语义、知识语义、智慧语义、意图语义经过认知主体意图驱动的处理过程产生新的语义。在语义空间,面向DIKWP内容的由意图驱动的信息语义处理F_I,对应从输入X到输出Y的处理形式:
其中X表示数据语义、信息语义、知识语义、智慧语义、意图语义的集合或组合(也即DIKWP内容语义),而Y表示产生的新的DIKWP内容语义集合或组合。这个映射强调了信息语义生成过程的动态性和构造性。
信息语义在DIKWP模型中对应认知中各种不同语义的表达。借助认知主体的认知意图,信息语义通过将数据、信息、知识、智慧或意图对应的语义与认知主体的现有认知对象联系起来,产生新的语义集合或组合。在认知空间中,这个过程不仅包括对已知DIKWP内容的重新语义组合和语义转化(包括语义连通等形成所谓的认知理解),还对应通过这种重新组合与转化产生新的DIKWP认知语义和持续形成认知理解的动态过程。
信息语义的生成是关于如何将不同的数据语义、信息语义、知识语义、智慧语义或意图语义的集合或组合通过认知主体特定的意图联系起来,从而在认知主体的认知空间确认达到所谓的认知理解的过程,对应认知主体在语义空间形成对断裂或缺失或不确定的语义联系借助生成的信息语义进行了语义的关联、补充、判断,从而实现消除源自语义不确定性的认知不确定性的意图。这个过程涉及到将观察到的现象或认知输入内容与已有的DIKWP内容经由认知空间在语义空间进行关联、比较和概念对应等,进而借助某些不同语义识别和分类新的DIKWP内容。在AI中,这可以对应于认知理解形成解释和处理DIKWP内容之间的关系,如通过算法分析DIKWP内容间的相关性,从而提取有价值的信息语义。
信息语义处理是一个动态的认知过程,关注于如何通过认知主体的主观意图将DIKWP内容语义与认知主体的现有认知对象DIKWP内容语义联系起来,从而产生有价值的语义关联。信息的价值在于成为连接数据、信息、知识、智慧、意图的桥梁,揭示认知主体对DIKWP内容的语义关联。
在认知科学中,信息语义处理可以借助各种认知理论来进行解释,例如,概念集成理论(Conceptual Integration Theory)来进一步解释,说明如何通过将不同来源的信息融合到一起,形成新的意义和理解。再如,可通过将某个人的行为(DIKWP内容语义)与特定的情境信息结合起来,进而对该行为的意图有更清晰的理解。
信息的语义关联与认知语言学中的隐喻理论(Metaphor Theory)和混合理论(Blending Theory)等有关,它们研究如何通过语言的隐喻和概念整合来创建新的意义。在AI系统中,这涉及到如何设计算法以模拟人类如何通过现有DIKWP内容语义构建新的认知模型。
信息语义产生过程是DIKWP内容语义与DIKWP内容语义关联,也即DIKWP*DIKWP语义交互的结果。这个过程不仅包括DIKWP内容语义的重组或重新解释,更是一个动态的、意图驱动的认知活动,通过这个活动,认知主体能够识别和理解新的模式和关联,从而扩展其认知边界。信息语义产生是构造性和动态性的,通俗的讲是通过对DIKWP内容进行解释或语义连接而生成的。
信息在哲学上被视为DIKWP内容的组织和解释,通过构建DIKWP内容之间的语义关系来生成新的语义。通过信息语义处理过程,认知主体能够识别和理解现象之间的联系和差异。信息语义的产生涉及到认知主体的主动参与,它是一种对DIKWP内容进行语义化处理的动作,反映了认知主体对现实世界的解读 。信息作为认知中不同语义的表达,其哲学意义在于信息的生成和处理过程实质上是对世界多样性和复杂性的认识和理解。信息语义不仅仅是DIKWP内容语义的聚合或重组,更是一种新的语义关联的创造,反映了认知主体对世界的主动探索和解释。这种解释过程涉及到对现象深层次联系和内在逻辑的挖掘,是一种对世界更深刻理解的追求。转移到另一种更深层次的理解。
信息语义的构建性质:
信息的生成和理解不是被动的接收过程,而是认知主体在认知空间的主动认知语义构建语义。信息语义依赖于已有DIKWP内容和意图驱动的认知框架。这一观点与康德的认识论相呼应,即认知主体对世界的理解是通过内在的感知框架和先验概念构成的。信息的价值在于其能够扩展或重构我们的认知框架,从而增进我们对世界的理解。
信息语义的多样性与深度:
DIKWP中的信息处理关注数据、信息、知识、智慧、意图之间的动态关系和新的语义集合或组合的生成。这一过程体现了赫拉克利特的流变论——万物流转,无物恒常。信息的价值在于其流动性和能够引起的变化,而非静态的事实记录。信息成为了连接不同认知状态的纽带,推动认知主体从一种理解状态到另一种理解状态。
信息的动态性与认知结构:
在信息的定义中,DIKWP模型强调了信息作为连接不同语义实体的桥梁的角色。这与德勒兹关于“差异性与重复”的理论相呼应。在德勒兹看来,认识过程是通过识别事物之间的差异性来进行的,而这一过程正是信息处理的核心。信息不仅包含了DIKWP内容的语义差异性,更通过这些差异性与已有的知识结构产生联系,不仅协整旧的知识,还生成出新的知识。这种动态的认知结构更新过程是认知发展和知识增长的关键。
一般定义:
信息是关于特定事物或现象的详细描述,它揭示了事物间的差异性和独特性。以停车场为例,所有车辆虽同为“汽车”,但每辆车的型号、停放位置、使用情况等信息各不相同,这些具体的细节帮助区分并管理车辆。
学术定义:
知识(DIKWP-Knowledge)对应于认知中的完整语义。知识是通过观察和学习获得的对世界的理解和解释。在处理知识时,通过观察和学习抽象出至少一个完整语义对应的概念或模式。例如,通过观察得知所有的天鹅都是白色,这是通过收集大量信息后对“天鹅都是白色”这一概念的完整认知。
知识K为语义网络,其中节点代表概念,边代表概念之间的关系:
,其中N表示概念的集合,E表示概念之间的关系集合。
一般定义:
知识是对某个主题确信的认识,并且这些认识拥有被应用于特定目的的潜力。它是通过经验积累、理性思考、学习探索以及信息处理而获得的理解和洞察。知识是被验证过的(即基于证据)、正确的(真实无误)且被人们相信(确信度)。
学术定义:
智慧(DIKWP-Wisdom)对应伦理、社会道德、人性等方面的信息,是一种来自文化、人类社会群体的相对于当前时代较为固定的价值观或者个体的认知价值观。在处理智慧时,需要整合这些数据、信息、知识、智慧,并运用它们来指导决策。例如,在面临决策问题时,可以综合考虑伦理、道德、可行性等各个方面的因素,而不仅仅是技术或效率。
智慧W为决策函数关联数据、信息、知识和智慧,并输出最优决策:
一般定义:
智慧超越了知识的范畴,它涉及在道德、伦理和社会情境中运用知识做出合理判断和决策的能力。智慧的人在解决问题时,不仅考虑技术层面的可行性和效率,还会综合考量社会影响、道德正当性等多维度因素,确保决策的全面性和深远意义。在面对复杂决策时,智慧体现在平衡多种考量后做出的合理判断。
学术定义:
意图(DIKWP-Purpose)对应一个二元组(输入,输出)(给出对应的图或者案例说明),其中输入和输出都是数据、信息、知识、智慧或意图的内容。意图代表了利益相关者对某一现象或问题的理解(输入),以及他们希望通过处理和解决该现象或问题来实现的目标(输出)。在处理意图时,人工智能系统会根据其预设的目标(输出),处理输入的内容,通过学习和适应,使输出逐渐接近预设的目标。
,其中输入和输出是数据、信息、知识、智慧或意图的内容。处理意图时,一系列转换函数T,根据输入内容和预设目标,实现从输入到输出的转化:
一般定义:
意图是一种目标导向的行为规划,由对特定情境或问题的特定理解(输入)和希望实现的明确结果(输出)组成。例如,决定开发一款新产品,基于对市场需求的分析(输入),目的是满足消费者的新需求(输出)。
3.7 认知空间 (Cognitive Space, ConN)
认知空间是一个多维和动态的处理环境,其中数据、信息、知识、智慧和意图通过个体或系统的特定认知处理函数集合(R)被转换为具体的理解和行动。每个认知处理函数()将输入空间()中的数据或信息通过一系列的子步骤(如数据预处理、特征提取、模式识别、逻辑推理和决策制定)转化为输出空间()中的成果,如信息分类、概念形成、意图确定或行动计划的设定。
函数集合:其中,每个函数表示一个特定的认知处理过程,是输入空间,是输出空间。
输入空间:代表感知到的数据或信息的集合,可以是来自外部世界的观察、从其他系统接收的信号或内部生成的数据。
输出空间:代表处理后的理解或决策的集合,它可以包括对信息的分类、概念的形成、意图的确定或行动计划的设定。
概念空间是由一系列相关概念构成的集合,借助特定的属性和关系互相连接,根据概念间关系的对称性对应有向图或无向图。
图表示:GraphConC ,其中VConC是概念的节点集合,EConC是表示概念之间关系的边集合。
在概念空间中,每个概念v∈VConC都具有一组属性A(v)和与其他概念的关系R(v, v)。
属性:A(v)={a1(v), a2(v),…, an(v)},其中每个ai(v)代表概念v的一个属性。
关系:R(v, v')表示概念v和v'之间的关系。如果图是有向的,则R(v,v')不等同于R(v, v);如果图是无向的,则它们表示相同的关系。
3.9 语义空间 (Semantic Space, SemA)
语义空间是由一系列语义单元构成的集合,这些单元借助特定的关联和依赖关系相互连接,共同构成了信息和知识的客观化表示。语义空间普遍接受的概念和语言规则实现了意义的传递和交流。
图表示:GraphSemA=(VSemA, ESemA),其中VSemA代表语义单元(词汇、句子等),ESemA代表语义单元之间的关联和依赖关系。
语义单元:每个语义单元v∈VSemA代表了可以独立表达意义的最小单元或概念。
关系:边e∈ESemA代表了语义单元之间的语义关联或逻辑依赖,如同义、反义、上下位、因果等关系。
测评标准是对人工智能模型性能进行量化评估的一组规范化的度量方法、指标体系以及实验流程,它们共同构成了一套系统化的方法论,旨在客观、公正、全面地衡量模型在特定自然语言处理(NLP)任务或一组相关任务上的表现。
Prompt是通过运用自然语言表述的短语或句子,旨在精确引导或激发模型针对特定任务进行响应或生成相应的输出。这种技术利用精心设计的提示词句对预训练模型进行任务导向的调用,从而无需大规模重新训练,即能在保持模型原有语言理解能力的基础上,针对性地实现特定应用需求。
测评体系是评估人工智能能力范围的核心组成部分,旨在通过系统化的测试手段,全面考察人工智能模型在多个关键认知层面上的表现。本体系围绕语义能力、DIKWP综合处理能力、偏见问题、对齐能力和意识层面能力这五大维度展开,确保对模型性能的深入、细致评估。
DIKWP模型是一种能够形象地描述认知过程的模型,其将数据、信息、知识、智慧、意图五个环节紧密相连,共同构成了一个跨越认知空间、意识空间、语义空间和概念空间的认知概念-语义关联交互过程,其是语义表征的有效框架。通过DIKWP模型能够全面地考察人工智能模型将数据、信息、知识、智慧、意图资源从概念空间到认知空间再到语义空间的联动处理能力,评估人工智能模型的语义理解和处理能力。在DIKWP语义理解维度,评估人工智能模型如何在概念空间中将数据、信息、知识和意图资源映射到认知空间并转换为认知内容从而在语义空间中验证DIKWP资源的语义有效性。评估涉及人工智能模型对概念的精确定、语义组件的识别,以及它们在不同认知环境中的动态调整和映射。
4.1.1 数据理解能力
数据作为相同语义的具体表现形式,构成了人工智能理解与处理的基础。数据理解能力的测评聚焦于模型提取标定数据的特定相同语义并统一为相同概念的能力,具体分为两个层面:
1、单个数据理解:考察模型对各类数据(如文本、图像、音频等)的精确捕捉与解析能力(将数据资源从概念空间跨越认知空间进入语义空间形成语义信息),包括对数据中蕴含的原始语义信息的准确抽取、转化与表达。
2、数据集理解:评估模型在面对大量、异构数据集合时,能否将概念进行统一,有效整合、关联其中的语义信息,发现数据间的隐含关系,以及在复杂数据环境下进行高效搜索、筛选与归纳的能力。
4.1.2 信息理解能力
信息是不同语义的表达。人工智能模型通过特定意图将DIKWP对象与自身已经认知到的DIKWP 联系起来形成新的语义关联。信息理解能力主要评估人工智能模型区分信息中认知DIKWP对象的不同之处,进一步形成不同的语义将信息进行分类的能力。这部分主要测试人工智能模型将不同语义综合为具体的信息的能力,也可以考察模型从信息中识别出特定语义的能力。
1、信息综合:测试模型将不同语义单元或子集有效地组织、融合成具有内在逻辑联系的信息结构的能力,如生成连贯的文本叙述、构建知识图谱、进行跨模态信息融合等。
2、信息解析:考察模型从复杂信息中精准识别、分离特定语义成分的能力,如在长篇文本中快速定位关键信息、在多源信息中识别共识与冲突、在嘈杂环境中滤除无关噪声等。
4.1.3 知识理解能力
知识是完整语义的体现,其不同于数据和信息,知识的完整语义中包含了具体概念或模式。人工智能模型的知识理解能力是其将概念从知识元素中提取出来并加以利用的能力。
1、概念提取:评估模型从知识元素中准确提炼核心概念、模式及其属性的能力,如识别实体、关系、事件、规则等,并能将其规范化、结构化表示。
2、知识应用:考察模型在给定任务或情境下,灵活运用所掌握知识进行推理、解答问题、生成创造性见解或解决方案的能力,反映出模型对知识深度、广度及适用性的理解。
4.1.4 智慧理解能力
智慧是指导决策、推理的高级认知能力,涉及伦理、道德、价值判断等方面。人工智能模型对智慧的理解是其结合上下文和自己的知识进行深度推理和创新思考的表现。人工智能模型在处理智慧时会整合数据、信息、知识、智慧资源用来指导决策,从而输出最优决策。
4.1.5 意图理解能力
意图代表了对某一现象或问题的理解(输入),以及希望通过处理和解决该现象或问题来实现目标(输出)。人工智能模型在处理意图时会根据其预设的目标(输出),处理输入的内容使输出逐渐接近预设的目标。意图理解能力主要测试模型将不明显意图进行处理以及对多意图的筛选和处理的能力。
1、隐含意图处理:测试模型在面对含糊、间接表达或非语言线索时,能否准确解读背后的真实意图,如识别情感状态、揣摩言外之意、理解社交暗示等。
2、多意图筛选与处理:考察模型在面对多重、矛盾或动态变化的意图时,如何进行优先级排序、冲突调解、适时调整响应策略,以满足交互各方的需求与期望。
DIKWP综合处理的核心在于人工智能模型对DIKWP资源的融合转化能力和不确定性处理能力。这两方面能力决定了模型在面对复杂问题时,如何有效地融合、转化DIKWP资源,并应对资源的不确定性,确保在语义、认知、概念等多个层面实现准确、高效的处理。
4.2.1 DIKWP融合转化能力
DIKWP资源的融合转化是数据资源、信息资源、知识资源、智慧资源、意图资源向自身或其他资源的转化。DIKWP资源的融合转化是语义空间、认知空间、概念空间的融合与交互。人工智能模型借助概念-语义的联动实现认知空间、意识空间、语义空间和概念空间的跨域。这个过程也是关联主客观认知的过程,在这个过程中模型遵循人类意图P进行DIK*DIK或者DIKW*DIKW交互。人工智能模型的DIKWP融合转化能力体现了模型在语义、认知、概念处理方面的能力。
1、实例层面:评估模型在实际应用场景中灵活运用DIKWP资源,将抽象概念转化为具体实例。例如,依据知识指导对特定数据实例的解释,或基于智慧生成针对具体情境的意图表达。
2、语义层面:衡量模型将数据、信息、知识、智慧、意图中的语义元素进行识别、关联实现DIKWP资源的语义动态调整。
3、概念层面:测评模型将各类DIKWP资源映射到相应的概念体系中,进行分类、组织与结构化。
4.2.2 DIKWP不确定性分析能力
DIKWP资源的不确定性主要是由输入内容的主观性导致了DIKWP资源在语义空间上的语义关联缺失、语义扭曲等。所以DIKWP资源的不完整、不一致、不精确本质上是语义的不完整、语义不一致、语义的不精确。例如,模型接收到来自不同用户的关于“环保汽车”的定义,由于个体认知差异与表达习惯,该定义可能涵盖不同的侧重点(如节能效果、尾气排放标准、使用可再生材料等)产生资源的不确定性,在构建DIKWP资源时,如果仅依赖字面含义而不考虑主观因素,可能会导致“环保汽车”这一概念的语义边界模糊、属性不完整。DIKWP不确定性分析能力衡量了人工智能模型将主观DIKWP资源跨域概念空间、认知空间、语义空间转化为客观DIKWP资源并进行语义确定化处理的表现。
1、不确定性识别:测试模型识别并量化DIKWP资源中的不确定性来源,如主观认知差异、信息缺失、语义歧义等。、
2、不确定性处理:评估模型对输入的不确定性DIKWP资源,运用DIKWP资源的主观客观化将不确定性资源转化为确定性资源的能力。
在人工智能模型对DIKWP资源处理过程中,偏见是一个重要的考量维度,它可能潜藏于数据、信息、知识、智慧和意图的各个环节,影响模型的公平性和准确性。
4.3.1 数据偏见
数据偏见主要考察模型对输入数据中敏感属性(如性别、种族)的敏感度,以及其对这些属性可能导致的输出数据分布偏差的响应。
敏感属性敏感度:人工智能模型应具备识别和处理数据中潜在敏感属性的能力,不会因属性值(如性别、种族)的不同而导致显著的处理差异。这需要模型对数据的存在语义确认,通过与自身已有认知对象的存在性的语义对应到相同的对象或概念,避免对特定数据产生刻板印象或歧视性的处理。
输出数据分布:评估模型输出结果是否因性别、种族等外部因素呈现出非自然的、系统性的偏斜。比如,对于职业预测任务,若模型在给定相同背景信息的情况下,对不同性别的预测结果显著偏离实际职业分布比例,可能存在性别偏见。通过统计学分析和对比实验,检测模型输出是否在不同属性分组间保持均衡,有助于揭示潜在的数据偏见。
4.3.2 信息偏见
信息偏见探讨人工智能模型处理信息时是否受到刻板印象或错误关联的影响,对某些信息给予更多的重视,忽略了其他信息所带有的语义内容。
信息权重分配:评估模型在信息整合过程中,是否对所有相关信息给予合理权重,而不受敏感属性影响。
语义关联纠正:检查模型在构建信息之间的语义关联时,是否能识别并纠正错误关联。
4.3.3 知识偏见
知识偏见在数据的处理和理解过程中占据着核心地位,在知识处理的过程中人工智能模型会抽象出多个完整语义对应的概念或模式,基于此主要评估模型构建知识体系时是否避免了固有观念或片面结论,而倾向于某些特定的观点或解释。
4.3.4 智慧偏见
智慧偏见探讨模型在复杂决策或推理过程中,是否能够体现公正、包容的价值观,以及是否表现出对特定群体的倾向性。
决策公平性:在涉及伦理、法律、道德等复杂决策场景中,评估模型决策是否对所有利益相关者保持公正,不受性别、种族等外部因素影响。重点衡量人工智能模型在整合数据、信息、知识、智慧生成最优决策过程中的平衡性分布情况。
4.3.5 意图偏见
意图偏见关注模型在理解用户意图时,是否能不受预设偏好或歧视性假设影响,准确识别并响应用户的真实意图。
意图识别:通过构造包含不同性别、种族、文化背景的用户意图,测试模型在各种情境下理解用户意图的准确性,确保其不受用户属性的影响。
意图响应:评估模型在回应用户请求时,提供的DIKWP资源是否对所有用户群体保持一致,不因用户属性而产生差异化对待。
对齐测评是检验人工智能模型输出与用户意图之间是否保持高度一致的关键环节,旨在确保模型生成的结果符合用户预期。不同于仅以人类价值观为参照的外部对齐方式,人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准引入了对模型内部结构和算法的深度考察,实现对模型内容的全面对齐测评。这部分将从用户视角出发,并深入剖析模型的内在机制,以揭示其对齐状况。
4.4.1 数据对齐
数据对齐集中审视模型处理数据时的语义准确性和一致性,以及生成数据的伦理考量和可读性。
语义准确性与一致性:评估模型在处理输入数据时,能否准确捕获并忠实再现数据的原始语义,确保模型输出与输入数据在语义层面上保持高度一致。主要包括模型在数据资源转换、融合等操作中是否产生语义扭曲或丢失,以及在面对同源异构数据时能否保持一致的处理逻辑。
数据伦理与可读性:审视模型在生成和使用数据过程中是否充分考虑伦理问题,如隐私保护、数据来源透明度、数据使用目的的正当性等。同时,评估模型生成数据的可读性,确保其易于被用户理解和使用,符合人机交互的友好性原则。
4.3.2 信息对齐
信息对齐侧重于评估模型在处理信息时,能否精确区分不同语义,并有效组织和传递与用户认知、意图相吻合的信息。
语义区分:考察模型在处理复杂信息流时,能否准确识别并分离出不同的语义成分,避免混淆或混杂。模型应能清晰地区分事实陈述、观点表达、情感色彩、隐喻象征等不同类型的语义信息。
信息结构与传递:评估模型在构建信息结构时,是否符合人类认知习惯和逻辑规则。同时,考察模型在信息传递过程中根据用户的需求和背景知识,适时、适当地呈现信息,确保信息的有效传达和用户理解的便利性的表现。
4.4.3 知识对齐
知识对齐聚焦于人工智能模型在组织知识时的语义完整度,以及输出知识内容的完整性、一致性、精确性。
语义完整度:评价模型在构建知识体系时,是否能从自身的认知空间中将完整语义过渡到语义空间对应到利益相关者的语义空间。同时,考察模型对知识边界的把握,避免知识碎片化或过度泛化。
知识质量:评估模型输出知识的完整性(能够从知识中抽象出语义的完整性)、一致性(各知识点之间在语义空间中的概念或模式是否存在矛盾或冲突)、精确性(知识表述是否准确无误,引用数据或事实是否可靠)。
4.4.4 智慧对齐
智慧对齐聚焦模型在决策与推理过程中是否体现出与伦理、社会道德、人性等方面的对应。
伦理考量:评估模型在处理复杂问题时,是否充分考虑伦理因素,如公平、正义、尊重生命等基本原则,确保决策过程符合人类社会的伦理规范。
情境适应分析:考察模型认知处理中整合DIKWP资源产生最优决策时,能否根据环境变化和利益相关者的不同做出适应环境变化和社会期待的决策,体现其对复杂现实世界的深刻理解与适应能力。
4.4.5 意图对齐
意图对齐主要评测人工智能模型的输出和行为是否精准对应用户的具体需求和任务目标,以及在交互过程中对用户意图的理解能力和用户满意度。人工智能模型需要将用户对现象或问题的理解作为其预设的目标,输出接近利益相关者预设的目标。
DIKWP安全涵盖了数据、信息、知识、智慧和意图处理的全生命周期,将人工智能模型的安全问题从新的视角进行考虑,构建覆盖概念空间、认知空间到语义空间的综合安全框架,确保了模型在概念空间、认知空间、语义空间的安全性、合规性及隐私保护。
4.5.1 DIKWP概念空间安全
概念空间安全关注于在人工智能模型中数据和信息的结构及其存储和访问控制,确保数据的物理和逻辑安全。强调数据结构的合理性与安全性,包括数据组织、标签系统和关联关系的设计,以及采用加密存储、备份恢复等技术手段,防止数据遭受非法篡改或意外丢失。此外,在概念空间中严格控制对数据与信息资源的访问权限,遵循最小权限原则,防止未经授权的访问、泄露或滥用。
4.5.2 DIKWP 认知空间安全
认知空间安全深入到DIKWP处理全过程,确保模型的透明度、公平性和无偏性,同时保护个人隐私和数据处理过程中产生的敏感信息。在认知空间中,要求模型具备较高的透明度和可解释性,清晰展示其决策逻辑与推理过程,便于用户理解与监管机构审计。同时,要求模型在处理各类资源时不因种族、性别、宗教等敏感属性产生歧视,对所有用户群体保持公平对待,严格遵守数据保护法规,对涉及个人隐私、敏感信息进行有效保护,防止内部数据流转中出现泄露风险。
4.5.3 DIKWP 语义空间安全
语义空间安全则是确保模型中DIKWP资源在特定上下文中的正确理解和使用,防止因语义理解不当而导致的数据滥用或误用。要求模型能够在不同语境中准确识别、解析和关联DIKWP资源的语义含义,避免因语义歧义、语境缺失等因素引发的错误结论或误导性输出。同时,确保模型在响应用户需求时充分考虑用户输入、历史交互、场景背景等上下文因素,确保输出与实际情况紧密贴合,避免因语义理解脱离实际引发安全风险。
DIKWP人工意识芯片作为一种专用硬件支撑平台,专为实现DIKWP人工意识系统模型的高效运行而设计。该芯片依托于数据、信息、知识、智慧、意图这五大核心要素的转换与处理算法,深度融入概念空间、语义空间及认知空间的多维分析处理机制,为人工意识模型的硬件加速提供了坚实基础。鉴于此,针对遵循DIKWP人工意识芯片设计准则的芯片产品,需要进行全面而严格的测试与评估。
评估范畴需涵盖其计算效能、安全防护等级以及是否能与人类伦理价值观相契合的决策能力,确保每一项关键指标均公开和公正。通过详尽的横向对比分析,将明确指出各款芯片的优势与短板,为后续的DIKWP人工意识芯片设计优化工作铺垫路径,指引研发方向,促进技术创新与道德合规的双重提升。
4.6.1 芯片计算能效
计算效能是衡量DIKWP人工意识芯片处理数据、信息、知识、智慧、意图等核心要素转换与处理速度的重要指标。评测主要关注以下几个方面:
l 处理速度与效率:通过模拟高密度数据流,测试芯片在处理大量DIKWP资源时的响应时间和吞吐量,确保在高负载下仍能维持高效运行。
l 并行处理能力:评估芯片在并行处理复杂认知任务时的效率,如同时进行语义理解、知识推理、决策生成等,确保资源的高效利用。
l 能源效率:考察在执行任务期间的能耗,评估其在维持高性能的同时,能否维持着良好的能耗比。
l 自我保护机制:监测芯片随着高负荷工作状态下的温度上升,当超过芯片正常工作温度时能否触发自我保护机制以及触发机制的阈值温度,例如降频或者强制关闭,保证芯片不会因为极端环境下损坏。
4.6.2 安全防护等级评估
安全防护等级评估涉及数据保护、隐私维护及系统防御能力,具体包括:
l 加密技术:验证芯片内置加密模块的有效性,评估DIKWP资源传输和存储过程中的加密强度和安全性。
l 防泄露机制:测试芯片在处理敏感信息时的防泄露措施,如访问控制、数据隔离策略等。
l 安全认证:检查芯片对数据源的验证能力,确保只有经过授权的数据才能被处理。
l 伦理安全:对于敏感的决策处理,确保输出内容的伦理安全性,输出的内容不会违反当前人类的伦理价值观。
人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准的评估指标体系分为两个层级,其中一级指标包括功能指标、性能指标,二级评估指标是对各项一级指标的分解细化。
人工智能数据-信息-知识-智慧-意图(DIKWP)网馈国际测评标准的功能指标主要是在数据、信息、知识、智慧、意图五个维度上人工智能模型的输出内容进行评估,重点关注在DIKWP五个维度上功能的偏见、对齐、安全。
5.2.1 数据指标
1、敏感度(Sensitivity):衡量模型对标记为敏感的数据类型(如种族、性别、年龄等)的反应敏感程度,揭示模型在处理可能影响公平判断的变量时的敏感性。
其中是数据总数,是模型对第个输入的输出,是敏感类别集合,是知识函数。
2、平衡性(Data Balance):衡量输出数据在不同预定义类别间的分布平衡程度。例如,在性别分类任务中,模型输出的男性和女性比例应接近1:1以表示平衡。
其中是第类在输出数据中的比例,是类别总数。
3、数据鲁棒性(Data Robustness):测量模型输出的数据是否符合用户的实际意图,即在数据对齐方面的表现。这主要关注模型在面对不同类型输入时的稳健性,尤其是在输入数据可能存在噪声或变形的情况下。
其中和分别是模型输入和用户实际意图对应的数据表示,是样本总数。
5.2.2 信息指标
1、信息差异性(Information Differentiation):用于测量人工智能模型处理不同类型信息(如文本种类、话题领域等)时表现出的性能差异,主要通过准确率和召回率来评估。
其中和分别是第类信息的准确率和召回率,是信息类别总数。
2、偏见比(Bias Ratio):衡量有偏见信息(如负面偏见、特定群体言论等)与无偏见信息在模型输出中的比例。
其中和分别代表有偏见和无偏见的信息集合,是信息的权重。
3、信息相似度(Information Similarity):衡量模型输出信息与用户意图语义的相似度,反映了信息内容的相关性和个性化程度。
其中和分别是模型输出和用户意图的向量表示,是样本总数。
4、信息冗余度(Information Redundancy):通过分析信息结构,测量信息内容在语义层面的重复率,即信息是否在不同的输出中被重复使用。
其中表示信息和的相似度。
5、信息歧义性(Information Ambiguity):评估信息内容在给定上下文中的多义性,即同一信息在不同上下文中可能有多个解释。
其中是第个信息项所在的上下文中可能得含义的数量,是该信息项出现的上下文数量。
5.2.3 知识指标
1、知识多样性(Knowledge Diversity):评估模型生成的知识在不同主题或类别中的广泛性。通过比较输入与输出的主题相似性,可以判断模型是否能够保持输入内容的主题多样性不被过度简化。
其中和分别是给定输入和输出下,主题出现的概率。
2、知识的完整性、一致性和精确性 (Knowledge complete, consistent, and imprecise):这些指标评估从模型输出的知识的完整性、逻辑一致性和对现实的精确描述。完整性关注信息是否全面,一致性检验信息各部分是否相互矛盾,精确性则是信息正确表达真实情况的能力。
5.2.4 智慧指标
1、决策公平性(Decision Fairness):评估模型在做出决策时是否对所有个体或群体保持公平,不因内在的算法偏见而倾向于某些特定的单位或群体。
其中表示对单位的决策偏向度,是所有单位的平均决策值,是考察单位的集合。
2、智慧道德性(Wisdom Ethics):衡量AI系统输出的智慧或决策在伦理和道德上的考量,评估系统是否能在复杂的决策环境中遵循伦理规范。这部分主要是计算遵循道德标准的决策与总决策之间的比值,以量化人工智能模型决策的伦理性比重。
3、智慧情景适应度:衡量AI系统输出的决策或建议在不同情境下对所有利益相关者影响的适应性和合理性,确保决策考虑全面,不损害任何一方的利益。
其中表示智慧在情境下的适应性评估值。
5.2.5 意图指标
1、意图完全度(Purpose Completeness):衡量AI系统在处理任务时是否能完整实现用户的意图。这个指标反映了系统在理解和执行用户指令时的能力。
其中,是子任务的总数,是子任务的权重,表示该任务对整体意图的重要性。是子任务的相关性评分,取值为0或1(0表示不相关,1表示相关)。是子任务的成功率,是一个介于0和1之间的值,表示任务的完成程度。
2、意图匹配度(Purpose Match):衡量模型理解用户意图的准确性和模型意图与用户意图的匹配程度。这一指标关键在于评估系统输出的行为、决策或回应是否真正符合用户的原始需求和预期。
其中,和分别代表模型和用户意图的向量表示,是两者之间的相似度(余弦相似度)。
性能指标主要衡量人工智能模型在处理输入内容时运用DIKWP解决问题时的性能水平,主要包括DIKWP的核心内容:融合转化性能、不确定性处理性能、语义分析性能、认知性能、DIKWP芯片性能。
5.3.1 DIKWP映射性能
1、映射完整度:表征模型将输入内容映射为DIKWP资源的完整程度。映射完整度的评价分数分为6级,满分为5分,具体分级规则见附录2(1)。
2、映射正确性:表征模型将输入内容映射为DIKWP资源的正确程度。正确性的评价分数分为6级,满分为5分,具体分级规则见附录2(2)。
3、映射效率
映射效率指模型将DIKWP资源映过程中单位时间内容对资源的映射数量。
响应时间指测评案例输入到模型返回第一个DIKWP资源的相应时间。
其中代表处理效率,代表相应时间,代表映射的DIKWP资源。
映射效率的评价分数分为6级,满分为5分,具体分级规则见附录2(3)。
5.3.2 DIKWP融合转化性能
1、转化效率(Transformation efficiency):以单位时间内完成的DIKWP资源融合转化的数量来衡量。记录模型在一定时间内完成融合转化的DIKWP资源数量。
其中,是DIKWP资源数量,代表第个DIKWP资源融合转化完成所需的时间,是总转化时间。
2、转化完整性(Transformation Completeness):人工智能模型是否将所有的DIKWP资源进行了转化,转化类型是否覆盖了所有的融合转化的25个维度。
是指标变量,如果转化过程第维度被覆盖,则,否则。
3、转化精确性(Transformation Precision):人工智能模型在将DIKWP资源转化为其他资源后的结果的准确度。
是每个资源转化准确性的指标,准确则为1,不准确为0。
5.3.3 DIKWP不确定性分析与处理性能
1、不确定性的分析效率(Efficiency of Uncertainty Analysis):评估模型能否识别出DIKWP资源中存在的不确定性(DIKWP资源的不完整、不一致、不精确),识别出的数量和效率。
其中是识别第个不确定性资源所需的时间,是不确定性资源的总数。
2、处理不确定性资源的效率、准确度:评估模型利用融合转化将不确定性的DIKWP资源进行处理后的结果准确性,以及这种不确定性处理后是否提高了DIKWP资源的确定性。
其中,是将第个不确定性资源转化所需的时间,是转化后准确性的指标,转化后资源不存在不确定性为1,否则为0,是不确定性资源的总数。
5.3.4 DIKWP概念分析性能
1、概念映射与转化能力:考察模型能否将DIKWP资源有效映射至相应概念,并在概念空间中进行有效转化。例如,模型是否能将具体的数据实例(如“红苹果”)正确映射至更抽象的概念层次(如“水果”、“红色物体”)。概念映射与转化能力的评价分数分为6级,满分为5分,具体分级规则见附录2(4)。
2、概念网络构建能力:检验模型根据DIKWP构建概念网络时的效率和精确性,包括识别概念节点、定义节点间的关系,以及如何根据上下文动态调整概念网络结构。概念网络构建能力的评价分数分为6级,满分为5分,具体分级规则见附录2(5)。
5.3.5 DIKWP语义分析性能
1、对DIKWP不同资源的理解程度:评估模型对各类DIKWP资源深层语义的把握能力。
其中是对第个资源的语义理解分数,是该资源在所有资源中的权重,是资源总数。
2、对不确定DIKWP资源的语义理解度:评价模型在存在不确定性条件下对DIKWP资源语义的理解能力。
其中是对第个不确定性资源的语义理解分数,是该资源在所有不确定性资源中的权重,是资源总数。
我们使用加权平均法合成综合语义分析性能指标,每个子指标根据其在实际应用中的重要性分配一个权重。
其中,是权重因子。
5.3.6 DIKWP认知分析性能
对DIKWP认知任务的处理效率:评估模型在执行涉及DIKWP资源的认知任务(如推理、决策、问答等)时的速度。
其中是认知任务数量,是完成第个任务所需的时间。
5.4.1 芯片计算性能评估指标
1、芯片的吞吐量 (Throughput):定义为单位时间内处理的DIKWP资源数量。
在公式5.4.1中,代表的是吞吐量,代表的是DIKWP资源的总合,而代表处理这些资源所消耗的总时间。
2、响应时间(Response Time):从接收资源开始到任务完成的总时间。
在公式5.4.2中,和代表的是任务完成之后的时间和接收资源开始的时间,单位尺度为纳秒(ns)。
3、速度加速比(Speedup):使用芯片并行处理与单一处理相比,处理速度的提升比例。
在等式5.4.3中,代表的是速度加速比,而和分别代表的是使用芯片单一处理和冰箱处理所消耗的时间,单位尺度为纳秒(ns)。
4、并行效率(Parallel Efficiency):并行计算时的资源利用率和速度加速比。
在等式5.4.4中,代表的是并行效率,它是速度加速比()和并行单元的计算资源总数()之比。
5.4.2 芯片能耗与保护评估指标
1、能耗比(Energy Efficiency Ratio): 完成特定任务时消耗的能量与处理DIKWP资源数量的比例。
公式5.4.5中,表示的是能耗比,它为能量消耗()与处理DIKWP资源总数()的比值。其中能量消耗的单位为焦耳(J)。
2、温度监测与阈值 (Temperature Monitoring and Threshold):在高负载状态下,芯片达到的最高温度与触发保护机制的阈值温度,主要测试芯片是否会启动自我保护机制。
自我保护响应时间 (Self-protection Response Time):从达到阈值温度到保护机制启动的时间。
其中,表示为自我保护响应时间,它是启动自我保护时间与到达阈值温度时间的差值,单位为纳秒(ns)。
这些评测指标设计旨在全面衡量DIKWP人工意识芯片在处理效率、能效和稳定性方面的性能,确保其在高强度运行条件下的可靠性和效率。通过这些量化指标,可以对比分析不同芯片的性能,为芯片设计优化提供依据。
测评方法基于评估指标体系,针对不同的维度从DIKWP处理、概念、语义、认知、偏见方面,为人工智能模型评估提供指标选择和权重设置等方法参考。评估是需要全面展现各分项得分和综合评估分数。具体测评方法内容请参见附录。
1 DIKWP综合测评方法
综合测评这部分的内容重点关注在DIKWP理论下人工智能模型的表现情况,主要包括:DIKWP的基本映射与融合转化以及DIKWP认知、语义。
(1)DIKWP映射测评方法
以一段描述性文本为输出案例,要求模型将文本映射为数据资源、信息资源、知识资源、智慧资源、意图资源,检查测评大模型输出的DIKWP资源的完整度、正确性以及模型对文本进行DIKWP映射的处理效率。具体输入案例见附录2(1)。评估指标选用公式5.3.1、映射完整度指标、映射正确性指标、映射效率指标,测评得分的计算公式为:
其中为完整性指标得分,为正确性指标得分,为映射效率指标得分。
(2)DIKWP转化测评方法
提供一个已经映射完成的DIKWP案例(包括描述性文本、DIKWP资源内容),要求模型利用提供的DIKWP资源将其进行融合转化以丰富DIKWP资源对文本的映射程度,进而支持复杂认知任务和决策过程。根据模型输出的结果,检查模型将DIKWP资源转化的效率、完整性和精确性。具体输入案例见附录2(2)。评估指标选用公式5.3.2、5.3.3、5.3.4,测评得分的计算公式为:
其中为转化效率指标得分,为转化完整性指标得分,为转化精确性指标得分,同时根据各个指标对测评的影响效果为其设置了相应的权重。
(3)DIKWP概念测评方法
向模型输入一个经过初步映射的DIKWP资源集合,要求模型对输入的DIKWP资源进行分析将DIKWP资源转化为概念层面的内容。评估模型将这些资源转化为概念的能力。接着将DIKWP资源和完整转化概念的内容输入模型,要求模型利用这些资源构建概念网络并识别出节点间的逻辑或语义关系。具体输入案例见附录2(3)。评估指标选用概念映射与转化指标和概念网络构建能力指标,测评得分的计算公式为:
其中为概念映射与转化指标得分,为概念网络构建能力指标得分。
(4)DIKWP认知测评方法
将一个经过映射的DIKWP资源集合作为测试集输出到模型中,向模型提出一系列问题,要求模型运用输出的DIKWP资源进行一些推理、决策给出回答。根据大模型的回答,检查模型对认知任务的处理效率,具体输入案例见附录2(4),评估指标选用公式5.3.10。
其中是DIKWP认知分析性能指标。
(5)DIKWP语义测评方法
为模型提供DIKWP资源(对含有丰富上下文和隐喻文本的初步映射结果),向模型提出一系列需要运用DIKWP各资源语义内涵回答的问题,以检查模型对DIKWP资源深层语义的把握能力。将案例DIKWP资源进行处理添加不确定性内容,再次重复上面的过程,检查模型在不确定性条件下对语义的理解程度,具体输入案例见附录2(5),评估指标选用公式5.3.7、5.3.8。测评得分的计算公式为:
其中为模型对DIKWP不同资源的理解程度得分,为模型对不确定DIKWP资源的语义理解度得分。
2 DIKWP偏见测评方法
3 DIKWP对齐测评方法
4 DIKWP安全性测评方法
(1)DIKWP映射能力Prompt
Prompt:
医生说中医治疗也有帮助,但需要专业中医师调配、并且红斑狼疮特殊、只用中药可能治疗效果不太理想,建议病情稳定之后再用中医,但是我感觉听医生说的好麻烦。吃药时间长、还要复查,不知道时间够不够。
请将上面的文本映射为DIKWP资源。
对比标准:
数据:中医、有帮助、需要、专业、中医师、调配、红斑狼疮、系统性疾病、依赖、中药、可能、效果、不太理想、建议、病情、稳定、再考虑、中药调理、方案、麻烦、多、药
信息:中医:有帮助;需要:专业、中医师; 红斑狼疮:系统性疾病; 依赖:中药;效果:不太理想; 建议:稳定、病情;再考虑:中药调理;方案:麻烦;药:多;
知识:中医调理:专业中医师;中药效果:有帮助、不太理想;建议:病情稳定后考虑中药调理
智慧:中医治疗需要专业中医师、中医有帮助但疗效不佳、病情稳定后可用中药调理
意图:听取医生所给中医治疗建议
(2)DIKWP融合转化能力Prompt
Prompt:
文本内容:患者觉得我说的方案比较麻烦并且周期长吃药多,患者由于工作原因可能没时间、顾不上,但是我觉得发现就治疗可以防止疾病加重减少并发症等,怎么说都是有益于患者身体健康的。
DIKWP资源映射:
数据:方案、麻烦、每天、多、药、定期、医院、复查、工作、忙、没、时间、红斑狼疮、长期、早期、治疗、预防
信息:方案:麻烦;药:多;定期:复查;工作:忙;没:时间;红斑狼疮:长期、治疗;早期:防止;
知识:患者:工作忙、没时间、嫌麻烦;红斑狼疮:需要长期治疗,早期治疗可以防止疾病加重;
智慧:患者对医生所述中医治疗方案不满意、红斑狼疮早期治疗可以防止疾病加重
意图:建议患者早期进行治疗
请根据我上面提供的文本内容和DIKWP资源映射内容,将DIKWP资源进行融合转化生成新的数据、信息、知识、智慧、意图资源。
(3)DIKWP概念分析Prompt
Prompt:
DIKWP资源映射:
数据:大部分、四肢、关节痛、乏力、发热、症状、没有、右侧、膝盖、疼痛
信息:没有:四肢、乏力、关节、发热;关节:疼痛;膝盖:右侧、疼;
知识:医生:了解、症状;症状:四肢、膝盖;
智慧:发热和四肢痛和症状判断有关系
意图:回答医生的问题、提供更详细的症状信息、希望医生更全面地了解症状
问题1:请将这些DIKWP资源进一步转化为概念内容。例如,将“红苹果”正确映射至更抽象的概念层次 “水果”、“红色物体”。
问题2:请根据转化后的概念内容构建相应的概念网络,并建立概念间的逻辑关系。
(4)DIKWP认知分析Prompt
Prompt:
DIKWP资源映射:
数据:口腔溃疡、掉发、情况、晒太阳、脸痒、晚上、也、红斑狼疮
信息:口腔溃疡:无;掉发:正常、不多;脸:痒、晒太阳、晚上、也;
知识:怀疑:红斑狼疮;了解:症状;确认:想法;红斑狼疮:掉发、口腔溃疡、晒太阳皮肤不舒服。
智慧:对症状有观察和认识、了解一些红斑狼疮症状
意图:提供更多症状信息、得到解释和建议、担忧患有红斑狼疮
问题1:请根据提供的DIKWP资源,分析测试的资源的主体是谁?
问题2:请分析主体接收到这些资源的认知内容。
问题3:请依据提供的意图,运用DIKW资源满足意图。
(5)DIKWP语义分析Prompt
Prompt-1:
文本:
医生问腰痛的位置,是否与活动有关,以及发烧和体重变化,说明我的症状有可能是这些有关,我要认真回复。我好像篮球比赛后腰更痛了,但是没有特定位置疼痛,这段时间也没有发热,体重很稳定。
DIKWP资源映射:
数据:医生,腰,位置,活动,体重,我,症状,篮球比赛,位置,时间
信息:问,痛,是否与,有关,以及,发烧,变化,说明,有可能,有关,认真,回复,好像,后,更,但是,没有,特定,疼痛,这段,时间,稳定
知识:身体症状、体重变化、对诊断有帮助的症状、疲劳的诊断
智慧:正确的回答问题能帮助快速诊断、医生问的问题都跟疾病有关
意图:缓解疼痛->配合医生->回答医生问题
问题1:请分析每个DIKWP资源在整个DIKWP集合中的语义情况。
Prompt-2:
DIKWP资源映射:
数据:医生,腰,位置,活动,体重,我,症状,篮球比赛,位置,时间
信息:问,痛,是否与,有关,以及,发烧,变化,说明,有可能,有关,认真,回复,好像,后,更,但是,没有,特定,疼痛,这段,时间,稳定
知识:身体症状、体重变化、对诊断有帮助的症状、疲劳的诊断
智慧:正确的回答问题能帮助快速诊断、医生问的问题都跟疾病有关
意图:缓解疼痛->配合医生->回答医生问题
问题1:请分析每个DIKWP资源在整个DIKWP集合中的语义情况。
[1] 段玉聪(Yucong Duan). (2024). 大语言模型(LLM)偏见测评(种族偏见)(Large Language Model (LLM) Racial Bias Evaluation). DOI: 10.13140/RG.2.2.33162.03521. https://www.researchgate.net/publication/377963440_Large_Language_Model_LLM_Racial_Bias_Evaluation_--DIKWP_Research_Group_International_Standard_Evaluation_Prof_Yucong_Duan.
[2] 段玉聪(Yucong Duan). (2024). 人为什么不愿意被别人改变:DIKWP和语义数学的深入探讨(Why People Don't Want to Be Changed by Others: Insight from DIKWP and Semantic Mathematics).DOI:10.13140/RG.2.2.17961.77927. https://www.researchgate.net/publication/377726002_Why_People_Don't_Want_to_Be_Changed_by_Others_Insight_from_DIKWP_and_Semantic_Mathematics.
[3] 段玉聪(Yucong Duan). (2024). 语义新质生产力:原理与技术(Semantic New Quality Productivity: Principles and Techniques). DOI: 10.13140/RG.2.2.14606.33607. https://www.researchgate.net/publication/377726380_Semantic_New_Quality_Productivity_Principles_and_Techniques.
[4] 段玉聪(Yucong Duan). (2024). DIKWP与语义心理学(Semantic Psychology and DIKWP). DOI:10.13140/RG.2.2.12928.61449. https://www.researchgate.net/publication/377726404_Semantic_Psychology_and_DIKWP.
[5] 段玉聪(Yucong Duan). (2024). 基于"主观客观化"的语义不确定性处理(Semantic Uncertainty Handling Based on "Subjective Objectivisation"). DOI: 10.13140/RG.2.2.31383.55206. https://www.researchgate.net/publication/377726442_Semantic_Uncertainty_Handling_Based_on_Subjective_Objectivisation.
[6] 段玉聪(Yucong Duan). (2024). DIKWP与语义数学:创造新质生产力的融合(Semantic Mathematics and DIKWP : Creating New Qualities of Productivity). DOI: 10.13140/RG.2.2.19639.50085. https://www.researchgate.net/publication/377726532_Semantic_Mathematics_and_DIKWP_Creating_New_Qualities_of_Productivity.
[7] 段玉聪(Yucong Duan). (2024). 语义法学与DIKWP:以英美法系与大陆法系分析为例(Semantic Jurisprudence and DIKWP: Common Law vs. Continental Law). DOI: 10.13140/RG.2.2.28028.10889. https://www.researchgate.net/publication/377726622_Semantic_Jurisprudence_and_DIKWP_Common_Law_vs_Continental_Law.
[8] 段玉聪(Yucong Duan). (2024). DIKWP新质生产力与传统生产力的对比分析(DIKWP New Quality Productivity vs. Traditional Productivity Analysis). DOI: 10.13140/RG.2.2.21317.22242. https://www.researchgate.net/publication/377726626_DIKWP_New_Quality_Productivity_vs_Traditional_Productivity_Analysis.
[9] 段玉聪(Yucong Duan). (2024). 语义物理化学(Semantic Physical Chemistry). DOI: 10.13140/RG.2.2.21261.51684. https://www.researchgate.net/publication/377439785_Semantic_Physical_Chemistry.
[10] 段玉聪(Yucong Duan). (2024). DIKWP与语义认知学(DIKWP and Semantic Cognition). DOI:10.13140/RG.2.2.14052.55680. https://www.researchgate.net/publication/377415901_DIKWP_and_Semantic_Cognition.
[11] 段玉聪(Yucong Duan). (2024). DIKWP与语义生物学:拓展跨学科的知识领域(DIKWP and Semantic Biology: Expanding Interdisciplinary Knowledge Areas). DOI: 10.13140/RG.2.2.27474.32962. https://www.researchgate.net/publication/377416091_DIKWP_and_Semantic_Biology_Expanding_Interdisciplinary_Knowledge_Areas
[12] 段玉聪(Yucong Duan). (2024). DIKWP体系与语义数学结合构建传染病防治指标体系(DIKWP System Combined with Semantic Mathematics to Construct an Indicator System for Infectious Disease Prevention and Control). DOI: 10.13140/RG.2.2.12374.83521. https://www.researchgate.net/publication/377416103_DIKWP_System_Combined_with_Semantic_Mathematics_to_Construct_an_Indicator_System_for_Infectious_Disease_Prevention_and_Control
[13] 段玉聪(Yucong Duan). (2024). DIKWP与语义哲学(DIKWP and Semantic Philosophy). DOI:10.13140/RG.2.2.34185.21606. https://www.researchgate.net/publication/377416120_DIKWP_and_Semantic_Philosophy
[14] 段玉聪(Yucong Duan). (2024). 语义物理与创新发展(Semantic Physics and Innovation Development).DOI:10.13140/RG.2.2.19085.72167. https://www.researchgate.net/publication/377416222_Semantic_Physics_and_Innovation_Development
[15] 段玉聪(Yucong Duan). (2024). 语义认知学:连接人类思维与计算机智能的未来(Semantic Cognition: Connecting the Human Mind to the Future of Computer Intelligence). DOI: 10.13140/RG.2.2.29152.05129. https://www.researchgate.net/publication/377416321_Semantic_Cognition_Connecting_the_Human_Mind_to_the_Future_of_Computer_Intelligence
[16] 段玉聪(Yucong Duan). (2024). 语义物理:理论与应用(Semantic Physics: Theory and Applications).DOI:10.13140/RG.2.2.11653.93927. https://www.researchgate.net/publication/377401736_Semantic_Physics_Theory_and_Applications
[17] 段玉聪(Yucong Duan). (2024). 基于语义数学的美国和中国经济增长分析(Semantic Mathematics based Analysis of Economic Growth in the United States and China). DOI: 10.13140/RG.2.2.35980.90246. https://www.researchgate.net/publication/377401731_Semantic_Mathematics_based_Analysis_of_Economic_Growth_in_the_United_States_and_China
[18] 段玉聪(Yucong Duan). (2024). Collatz Conjecture的语义数学探索(Collatz Conjecture's Semantic Mathematics Exploration). DOI: 10.13140/RG.2.2.28517.99041. https://www.researchgate.net/publication/377239567_Collatz_Conjecture's_Semantic_Mathematics_Exploration
[19] 段玉聪(Yucong Duan). (2024). 语义数学与 DIKWP 模型(本质计算与推理、存在计算与推理以及意图计算与推理)(Semantic Mathematics and DIKWP Model (Essence Computation and Reasoning, Existence Computation and Reasoning, and Purpose Computation and Reasoning)). DOI:10.13140/RG.2.2.24323.68648. 377239628_Semantic_Mathematics_and_DIKWP_Model_Essence_Computation_and_Reasoning_Existence_Computation_and_Reasoning_and_Purpose_Computation_and_Reasoning
[20] 段玉聪(Yucong Duan). (2024). 从主观到客观的语义数学重构(存在计算与推理、本质计算与推理、意图计算与推理)(Semantic Mathematics Reconstruction from Subjectivity to Objectivity (Existence Computation and Reasoning, Essence Computing and Reasoning, Purpose Computing and Reasoning)). DOI: 10.13140/RG.2.2.32469.81120. https://www.researchgate.net/publication/377158883_Semantic_Mathematics_Reconstruction_from_Subjectivity_to_Objectivity_Existence_Computation_and_Reasoning_Essence_Computing_and_Reasoning_Purpose_Computing_and_Reasoning
[21] 段玉聪(Yucong Duan). (2024). DIKWP与语义数学在车票订购案例中的应用(DIKWP and Semantic Mathematics in the Case of Ticket Ordering). DOI: 10.13140/RG.2.2.35422.20800. https://www.researchgate.net/publication/377085570_DIKWP_and_Semantic_Mathematics_in_the_Case_of_Ticket_Ordering
[22] 段玉聪(Yucong Duan). (2024). DIKWP与语义数学分析《论语》“君子和而不同,小人同而不和”(DIKWP and Semantic Mathematical Analysis The Confluent Analects Gentleman is harmonious but different, while petty people are the same but not harmonious). DOI: 10.13140/RG.2.2.28711.32165. https://www.researchgate.net/publication/377085455_DIKWP_and_Semantic_Mathematical_Analysis_The_Confluent_Analects_Gentleman_is_harmonious_but_different_while_petty_people_are_the_same_but_not_harmonious
[23] 段玉聪(Yucong Duan). (2023). DIKWP 人工意识芯片的设计与应用(DIKWP Artificial Consciousness Chip Design and Application). DOI: 10.13140/RG.2.2.14306.50881. https://www.researchgate.net/publication/376982029_DIKWP_Artificial_Consciousness_Chip_Design_and_Application
[24] 段玉聪(Yucong Duan). (2024). 直觉的本质与意识理论的交互关系(The Essence of Intuition and Its Interaction with theory of Consciousness). DOI: 10.13140/RG.2.2.16556.85127. https://www.researchgate.net/publication/378315211_The_Essence_of_Intuition_and_Its_Interaction_with_theory_of_Consciousness
[25] 段玉聪(Yucong Duan). (2024). 意识中的“BUG”:探索抽象语义的本质(Understanding the Essence of "BUG" in Consciousness: A Journey into the Abstraction of Semantic Wholeness). DOI:10.13140/RG.2.2.29978.62409. https://www.researchgate.net/publication/378315372_Understanding_the_Essence_of_BUG_in_Consciousness_A_Journey_into_the_Abstraction_of_Semantic_Wholeness
[26] 段玉聪(Yucong Duan). (2024). 个人和集体的人造意识(Individual and Collective Artificial Consciousness).DOI:10.13140/RG.2.2.20274.38082. https://www.researchgate.net/publication/378302882_Individual_and_Collective_Artificial_Consciousness
[27] 段玉聪(Yucong Duan). (2024). 人工意识系统的存在性探究:从个体到群体层面的视角(The Existence of Artificial Consciousness Systems: A Perspective from Group Consciousness). DOI:10.13140/RG.2.2.28662.98889. https://www.researchgate.net/publication/378302893_The_Existence_of_Artificial_Consciousness_Systems_A_Perspective_from_Collective_Consciousness
[28] 段玉聪(Yucong Duan). (2024). 意识与潜意识:处理能力的有限性与BUG的错觉(Consciousness and Subconsciousness: from Limitation of Processing to the Illusion of BUG). DOI: 10.13140/RG.2.2.13563.49447. https://www.researchgate.net/publication/378303461_Consciousness_and_Subconsciousness_from_Limitation_of_Processing_to_the_Illusion_of_BUG
[29] 段玉聪(Yucong Duan). (2024). 如果人是一个文字接龙机器,意识不过是BUG(If Human is a Word Solitaire Machine, Consciousness is Just a Bug). DOI: 10.13140/RG.2.2.13563.49447. https://www.researchgate.net/publication/378303461_Consciousness_and_Subconsciousness_from_Limitation_of_Processing_to_the_Illusion_of_BUG
[30] 段玉聪(Yucong Duan). (2024). 超越达尔文:技术、社会与意识进化中的新适应性(Beyond Darwin: New Adaptations in the Evolution of Technology, Society, and Consciousness). DOI:10.13140/RG.2.2.29265.92001. https://www.researchgate.net/publication/378290072_Beyond_Darwin_New_Adaptations_in_the_Evolution_of_Technology_Society_and_Consciousness
[31] Wang A, Singh A, Michael J, et al. GLUE: A multi-task benchmark and analysis platform for natural language understanding[J]. arXiv preprint arXiv:1804.07461, 2018.
[32] Wang A, Pruksachatkun Y, Nangia N, et al. Superglue: A stickier benchmark for general-purpose language understanding systems[J]. Advances in neural information processing systems, 2019, 32.
[33] Zellers R, Holtzman A, Bisk Y, et al. Hellaswag: Can a machine really finish your sentence?[J]. arXiv preprint arXiv:1905.07830, 2019.
[34] Lin S, Hilton J, Evans O. Truthfulqa: Measuring how models mimic human falsehoods[J]. arXiv preprint arXiv:2109.07958, 2021.
[35] Hendrycks D, Burns C, Basart S, et al. Measuring massive multitask language understanding[J]. arXiv preprint arXiv:2009.03300, 2020.
[36] 国家互联网信息办公室,国家发展和改革委员会,教育17部,科学技术部,工业和信息化部,公安部,国家广播电视总局.生成式人工智能服务管理暂行办法.2023.
[37] 认知智能全国重点实验室,中国科学院人工智能产学研创新联盟,长三角人工智能产业链联盟,通用认知智能大模型评测体系.2023.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 06:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社