|
DIKWP人工意识白测评标准化及实践中期汇报实录(补充)
黑体为2天后更新内容
唐福亮汇报环节内容
各位专家老师好,我中期的题目是DIKWP人工意识白测评标准化及实践。我接下来将从以下四个方面进行讲解。
首先是研究背景,随着人工智能的快速发展,大模型的不断迭代一些安全问题也层出不穷,目前在人工智能测评领域,各种测评方法和测评基准也是百花齐放,但是仍然没有一个统一的公认的测评标准。同时,大模型的测评的排行榜也是各种各样。有一个很明显的问题他们的测评结果是不一的,有些模型在排行榜中是排第一,但是在另一个排行榜中就可能是最后一名。我们前期也进行了一些测评,主要是对模型的选举了国内外的16个模型进行了智商和情商的测评。这里是一些测评结果。
我们发现目前的测评主要依赖黑盒测评,侧重与输入和输出,缺乏统一标准、具有较强的主观性等局限。例如,在一些测评中模型输出的结果与标准答案不同久会直接判错,在这种情况下有可能模型输出的结果不对,但是在它的处理过程中会产生部分对的内容。这种情况不应该纯粹的根据这样的结果评判模型的能力。所以需要一个白盒测评方法。通过白盒测评,我们可以根据模型的输出分析模型的内部处理过程,再将其与答案进行比较,使模型内部处理过程透明,从而可以降低相应的误差。
《Nature》在一篇文章中称,ChatGPT 已经攻破了图灵测试,是时候要启用其他新的方法来评估人工智能技术了。在这项测试过程中,多达54%的参与者将GPT-4误认为真人。模型已经具有了一定的欺骗性,所以,我们进一步对模型偏见进行了测评,评估了模型的偏见情况。我们发现测评需要从DIK层面的测评深入到W和P方面,也就是需要白盒测评。
接下来是我的研究内容,主要是构建DIKWP白盒测评框架和测评实践及标准化,在测评框架中,首先对模型的输入进行DIKWP分析,详细解析其输入的数据、信息、知识、智慧和意图的内容。接着,通过分析模型的输出,研究其内部DIKWP转化过程,探索输出内容与输入内容之间的语义转化关系。在测评实践中,通过语义数学构建DIKWP语义数学测评系统,用于精确评估人工智能系统中的DIKWP内容。同时,还要建立一个DIKWP语义测评数据集,涵盖多种应用场景下的语义评估,为模型的标准化测评提供了基础支持。
接下来是研究进展,第一个研究进展是DIKWP白盒测评的标准化框架,我们构建了一套白盒测评流程分为4个阶段,首先是设定评估目标范围场景,接着进行语义数学计算部分和DIKWP转化子模式设定阶段,最后执行评估。主要通过评估系统在处理数据、信息、知识、智慧及意图时的内部流程,增强了对AI内部逻辑的理解,同时对测评过程进行了标准化。
第二个研究进展是测评样本的分析及构建。主要是对于测评题目的处理与选择,需要分析每个题目DIKWP语义及语义处理的技术细节。 我们首先将题目映射为DIKWP资源,对其进行DIKWP语义分析形成数据语义、信息语义、知识语义、智慧语义、意图语义,进而分析出题目中的DIKWP*DIKWP转换转化的覆盖情况,同时我们也需要分析在不完整、不一致、不精确DIKWP资源的转化情况,为后续分析模型的内容处理过程提供参照。
第三个研究进展是模型处理过程测评,评估内部DIKWP处理过程,在大模型测评的过程中,通过分析输入和输出,我们可以分析模型的内部语义处理过程,将其视为一个DIKWP*DIKWP的状态转化过程,分析在每个状态下的资源转化情况,对应到DIKWP*DIKWP转化上。最后将模型的处理过程中的资源转化情况与题目所考察的能力范围进行对比,从概念黑盒过渡到语义白盒考察大语言模型在这些方面的处理能力以及认知过程。
例如这个案例,根据模型的回答,我们通过DIkWP语义数学分析,获得模型在求解过程中的两条语义转化路径。在s1状态将信息“清除方式”转化为知识“方式差异”,在s6状态将选项A转化为智慧“完全相同”。模型通过这两条语义转化路径形成了自己的回答及结果,通过这种方式我们可以获得模型内部的语义处理过程,从DIKWP*DIKWP转化上评估模型的能力。
我们选择了国内外的模型各两个分别进行了实践测评,测试样例分别从两个数据集中组合形成了75道题目,通过DIKWP分析统计了每道题考察的DIKWP*DIKWP转化类型,表2中展示了4个模型的表现情况,表3是我们将每道题的考察类型和模型实际求解过程中DIKWP*DIKWP转化类型的对比。
这里是我们目前构建的一个测评平台,能够通过上传数据集,对模型进行DIKWP测评,系统会分析出模型的认知情况并进行DIKWP映射向用户展示模型对数据、信息、知识、智慧、意图的应用情况。
之后是一个阶段性成果,也是目前在参与标准的一些制定,都是进度安排。目前是测评实现阶段,还有大论文撰写的一个准备。最后是下一步计划,主要就是完善DHWPM测评框架的测评框架和优化一些相关测评。第二个是构建系统的构架,将自动化处理评测,提高测评过程的一个效率和准确性。
我的汇报结束,请各位老师批评指导。这是我毕业论文完成计划。欢迎各位老师批评指正!
问答
朱绵茂教授:
就是说你这个数据处理,还有信息处理,还有知识构建,我们举个例子,科大讯飞他在搞一个大模型的处理的时候对数据“投毒”,当他的使用量达到一定的量的时候,他的输入的数据跟他输出的数据就产生了,不断的隐射出了这些教材啊什么之类的,后来导致这种设备和技术被起诉,把他的股价跌了很多。你怎么通过什么技术手段或者技术的体制机制来保证这种模型不会被数据“投毒”而造成他的数据的使用不一致而影响整个国家的意识形态安全或利用效率。怎么来防止数据“投毒”造成一种不能产出你所期望的结果而且会导致一种固定的结果。
回答:
我们在DIKWP白盒测评框架下,通过对模型的内部处理过程进行跟踪和分析,确保每个语义转化过程是合规的。例如,利用DIKWP模型对数据、信息、知识、智慧和意图的各个阶段进行逐步的语义分析和转换判断,确保模型在内部语义处理上不会产生偏差或不良影响。在测评过程中,我们也通过语义数学对模型的偏见和倾向进行评估,及时发现并消除有害内容,防止数据“投毒”引发的安全隐患。
朱绵茂教授:
那你能有效的去除吧。有没有这种技术体制机制的?
回答:
在数据层面,我们可以通过严格的数据筛选和清洗机制确保输入数据的质量。对于每一个数据集的使用,我们都可以进行DIKWP语义分析,确保其语义逻辑在输入时没有被“投毒”或污染。在模型处理过程中,借助语义数学和DIKWP模型的转化过程,我们不仅能够检测出数据输入时的异常情况,还能够实时评估模型在各个认知层级上的处理合理性。通过这种深入的分析,我们可以防止输入输出的偏差和不一致情况的发生。
朱绵茂教授:
如果不能说这样的话出问题,导致你的研究结果不能达到一致性的处理信息和输出的结果一致,这个问题就是核心的问题。
段玉聪教授:
其实你没有从白盒测评这个角度来回答,你既然是白盒测评了也就是你将这个黑盒的大模型变成一个白盒了,那么这个白盒如果输出了违法内容之后,我才知道白盒里面是哪个地方出了问题。这是你必须研究的因为你这样才能把黑盒模型变成白盒,你的测评效果就是把它呈现为白盒了,或者是哪个地方出了问题,你能锁定这个白盒里面是哪个模块出问题了,还是在某个处理上转化处理存在问题。你需要有一个和黑盒的对比,说明这两者的差异,你的更可信,可解释性更高。
回答:
在白盒测评中,我们不仅分析了模型的输入和输出,还深入探讨了模型的内部语义转化路径。通过DIKWP模型的语义数学分析,能够追踪并展示模型在数据、信息、知识、智慧和意图层面的处理过程,从而确定模型内部哪个模块或环节存在问题。例如,如果模型在W(智慧)层面输出了错误或不合规的内容,我们可以追溯到其知识或其他资源的转换过程,找出具体的错误来源,并采取措施修正该问题。
段玉聪教授:
没有刚才朱校长讲的这个问题,里面例如思政,可能就是偏了,输出反动内容了,那就是W上出问题了,就是说你要锁定W上不能输出这样的错误。那什么样的知识或其他资源转化之后产生了反动的W之后,那这个东西是要消除掉的。你具体是如何做的,这是你需要回答的。
刚才坤光那个也是一样,就是说你那个经验之类,你不要再提这个新概念、经验什么的,而是说你要做的这个人本究竟是W还是P上的什么东西。你把他映射到DIKWP上之后再来回答,而不是就只提出新概念。你要映射回DIKWP空间上去。
邱钊教授:
讨论一下这个白盒。那我看其实还是黑盒,因为我看你的思路呢,你是想说我把它的输入做一个DIKWP映射,它的输出做一个DIKWP映射,然后呢,DIKWP输入*DIKWP输出,然后来去分析。但是,你对我这个盒子里面的东西,你根本就不涉及的。这个盒子里的大模型我换几个,这个几个大模型的输入是一样的。
回答:
在传统的黑盒测评中,我们往往只能看到输入和输出的表面结果,而对模型的内部处理过程几乎一无所知。然而,DIKWP白盒测评通过语义数学的方法打开了大模型的“黑箱”,让我们能够从内部语义处理的角度理解模型的行为。
邱钊教授:
偷换了一个概念是我这里是语义白盒,你要做白盒,你如果没有把代码拿出来,你做不了白盒,你要做这个大模型的白盒,如果你不把大模型的代码拿出来,做不了,也就是说,我举一个例子,假如我这几个大模型的输入是一样的,那你把他转化为DIKWP后也是一样的,他们的输出可能不一样,那你把DIKWP*DIKWP推广到几个大模型的内部,那你给我解释一下,你的语义白盒是怎么突破的。
回答:
我们的白盒测评与传统的黑盒测评不同之处在于,我们不仅仅依赖输入和输出的直接对比,而是通过DIKWP模型对模型内部的语义处理路径进行分析。虽然输入相同,但我们通过追踪和评估每个状态下的语义转化过程,来判断模型的思维路径和认知处理能力。因此,我们可以发现模型输出结果背后的语义处理逻辑,确保测评的透明度和可解释性。这也是我们将黑盒模型转化为白盒测评的核心方法之一。
邱钊教授:
从输入来讲,这几个大模型的输入是一样的,虽然输出不一样,但是实际上还是根据它的输出来评判大模型,对不对,那你跟我直接用输出来评判有何区别呢,因为它的输入是一样,跟我们传统的大模型的黑盒测评有什么区别呢?
文斌教授:
测评和测试有什么区别。
邱钊教授:
我的输入是一样的转化为DIKWP后也是一样的,只是输出是不一样的,那我干脆直接用输出来做测评,不是一样的吗
回答:
白盒测评的突破点在于,我们不再局限于“结果对错”的评判,而是深入到模型内部,看它如何通过语义层级一步步推导出最终结论。这种分析使得我们不仅可以得出模型的表现优劣,还能找到改进的方向。这种方法不仅提升了模型评估的可信度,也为模型的进一步优化提供了有效的依据。它可能是就像解一道题,它可能是呃,就像评卷子,他可能结果是错的,但是这个过程是对的,这个思路是对的,你肯定是要给分的。所以我们用DIKWP分析它的一个语义过程就是能够。
邱钊教授:
比如说两个模型,他们的输入是一样的,所以你转化以后他们的DIKWP是一样的,他们的输出可能不一样,那输出不一样的你拿来去测评,跟我把他的输入甩开是一样的,因为你输入是一样的呀。对不对
回答:
输入只是参考的一个对比评价的过程,主要还是从结尾往前推,他的一个思维的过程就是处理过程。
邱钊教授:
不是,问题是你没有涉及到他的这个大模型的处理的环节,你其实还是一个黑盒子。所以我觉得这一块就很重要。白盒,你们提到白盒,到时候这个外省评委专家,他可能就会像我的想法一样。
另外一个呢,就是我看到你的那个测评结果,他的指标啊,只有正确率跟转化覆盖率。是指标太小太少了吧,这2个指标。你只靠2个指标去测评,这个太少了。
回答:
后面还需要再扩充一些其他的对比的。
余本国教授:
刚才就是邱老师讲的那个白盒测评的问题,我的其他说明还是透明度,我觉得可解释性,还有还要加强一下,那另外一个就是在咱们这个汇报部分,我没听到你说这个DIKWP模型他的科学依据这个,我没听到为什么,他可以用这个语言来做。
回答:
DIKWP模型的科学性体现在其严格的结构化定义和数学分析基础上。通过将数据、信息、知识、智慧和意图这五个层级系统化地关联起来,DIKWP模型为我们提供了一种全方位的语义分析工具。在这个过程中,我们借助语义数学,对模型的内部处理过程进行了标准化的解构,使得每一个转换步骤都有理有据。例如,DIKWP模型将每个输入通过语义转换的方式划分为多个层级,从最基础的数据层,到更高层次的智慧和意图层。通过对这些层次的解析,我们不仅能够评估模型在每个阶段的表现,还可以预测其潜在的错误点。这样,我们不仅能够看到模型的表现,还能理解其背后的逻辑。这种可解释性使得DIKWP白盒测评在科学性和实用性上都有显著的优势。
文斌教授:
像这个要放在前言第一部分或者背景知识啊,对吧
余本国教授:
另外就是这个要更详细的解释这个模型当中的各个组成部分之间的逻辑关系还有相关作用,
文斌教授:
我的理解,那邱老师啊,就是说大模型本来是黑盒的是吧,但是你根据他的那个,你为了评估,你把他它这个映射到一个DIKWP 的一个语义过程,DIKWP语义过程就变成你可以掌握的白盒了,然后通过分析这个DIKWP过程呢来对它进行评估,对不对
回答:
对分析它的一个语义路转化路径
文斌教授:
刚才邱老师说的,他说,根据输出是不是可以直接评估,你要回答一下啊,你在你的论文中把它解释一下。你说为什么你这个当中一个白盒是可行的是有效的,要考虑要有论证是吧。
第二,我刚才觉得那个前一个同学啊,他开头比较清晰,就是问有什么问题,然后研究内容,你这个就不太清晰,是吧,你说问题什么,问题要解决黑盒的问题,和测评的困难啊, 那你就想把它变成用DIKWP这种工具呢来把它白盒化以后呢,然后去写测评的话,就相对有据可查是吧,哎,这个问题是这样的啊,然后研究内容是哪些啊,解决哪些问题,最后是这个技术的路线图上。而且你的图啊,所有图都没写图号,我都不知道哪个图是干啥的。反正你自己设计的方案,你就要言之有理,每一步啊,每一个都要有有理论啊,你为什么把它转换成白盒啊,有什么好的,为什么是对的呀,你要言之有理,是吧?最后早一点把这个章节论文搞出来啊,第一章写什么,第二章,第三章写什么。
段玉聪教授:
他一个学硕就是给他学硕上再多多一点
文斌教授:
对,所以你要论证这种写作。
邱钊教授:
更麻烦,哦,你后面的话,你的这个创新性这块。
更那个什么?
其实你们2个换一下更好。
余本国教授:
有点对呀,他们拿过来了,他的技术性多一点,因为他的理论性很多。
然后去再加强这个创新性的关系。
因为你这个选题好像也得应该已经操作型的那种。
回答:
谢谢各位老师。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 13:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社