|||
2016年1月11日,《人工智能学家》研究团队正式启动2016年世界人工智能系统智商测试工作。《人工智能学家》主编,计算机博士刘锋,科学院大学刘颖,胡蓝艺,余曼璐联合研究团队在《人工智能学家》办公基地召开“2016人工智能智商测试工作会”。
会议首先统一了2016人工智能智商测试规则,生成人工智能智商测试题目,选择第一批进行人工智能智商测试的研究对象,包括百度,谷歌,搜狗,小度,小冰等人工智能系统,第二批测试对象将涵盖目前世界各个国家近50个搜索引擎或人工智能系统,测试结果将在2016年3月逐步对外公布。期间《人工智能学家》将组织多场研讨会对人工智能智商测试问题和人工智能未来发展方向进行探讨,敬请各位朋友关注。
2014年开始,北京交通大学计算机博士刘锋和其导师科学院大学石勇教授发表论文提出“互联网和人工智能智商的测试量表及方法(参见附录A)”,相关论文分别发表在2014俄罗斯莫斯科第二届ITQM 会议和SCI期刊IJITDM。利用该方法,2014年对包括谷歌,百度等世界50个搜索引擎和3个不同年龄段人类进行的智商测试,测试结果表明AI标准最高的谷歌,百度(26.3分)不及人类6岁儿童AI标准智商的一半。
2016年世界人工智能系统智商测试研究团队介绍:
刘锋:《人工智能学家》主编,计算机博士,《互联网进化论》作者,曾聘为中国科学院虚拟经济与数据科学研究中心客座研究员,中国传媒大学网络与未来社会研究中心特聘研究员,重点研究人工智能的智商发展和评测,互联网,人工智能和脑科学交叉领域。2005年提出威客模式,受到中央电视台新闻联播等数百家媒体报道。引发威客众包领域的行业讨论和发展,2015年《互联网进化论》被评为中国互联网20年最值得推荐的100本书之一。
刘颖:中国科学院大学经济与管理学院副教授,博士,国科大-中关村开放实验室网络经济研究室副主任,中国数量经济学会经济风险委员会常务理事。主要从事互联网经济、大数据、电子商务等领域的研究与实践工作。2015年出版企业互联网转型与大数据应用的专著《飞轮效应:数据驱动的企业》,该书被博客中国评选为“互联网时代百本必读书”之一。代表性成果:与百度合作开发的“中小企业景气指数”已经在百度大数据平台上线,成为业内关注的经济监测指标。
胡蓝艺,硕士,中国科学院数学与系统科学研究院学生。主要研究方向:经济预测与数据挖掘。曾参与年度中国经济预测、银行信用风险预警指标体系构建、石油市场波动性分分析、企业智能供应链转型等研究。
于蔓璐,硕士,中国科学院数学与系统科学研究院硕士研究生。主要研究方向:国别风险和保险行为。曾参与政治风险对外商直接投资的影响研究、保险者投保行为分析、保险中的道德风险及逆向选择等研究。
附录:人工智能智商( AI IQ)测试理论和方法
1.提出标准智能模型,统一描述人工智能系统和人类特征:
参考冯·诺伊曼结构,维.韦克斯勒人类智力模型定义,知识管理领域DIKW模型体系。提出如下标准智能系统定义:即无论对于人工智能系统,还以人类为代表的生命,如果符合如下特征,就可以认为这个系统属于标准智能系统(Standard Intelligent System):
特征1能够通过声音、图像、文字等方式(包括但不仅限于这三种方式)从外界获取数据,信息和知识的能力。
特征2能够将从外界获取的数据、信息和知识转化为系统掌握知识的能力。
特征3能够根据外部世界或自身系统发生问题所产生的需求,通过运用所掌握的知识进行创新的能力,这些能力包括但不仅限于联想、创作、猜测、发现规律等,这种能力运用的结果是解决问题并形成自身掌握的新的知识。
特征4能够通过声音、图像、文字等方式(包括但不仅限于这三种方式)将系统产生数据,信息和知识反馈给外界或对外界进行改造。
2.标准智能系统与外界信息交互模型
标准智能系统与外部世界以及相互之间进行数据、信息、知识的交互图示(本图中为了简化,把数据、信息、知识统一用知识描述)。
3.扩展冯,诺依曼架构,从理论模型到实践模型。
对比我们在3.3.2和3.3.3描述的标准智能模型和标准智能模型知识交互图,可以发现冯依·曼架构主要缺失两个部分:
第一个是创新创造功能,即能够根据已有的知识,发现新的知识元素和新的规律,使之进入到存储器,供计算机和控制器使用,并通过输入输出系统与外部进行知识交互;
第二个是能够进行知识共享的外部知识库或云存贮器,而冯.诺依曼架构的外部存储其只为单一系统服务。
因此我们对冯诺·依曼架构进行扩展,形成如图所示的新架构。
4.标准智能系统评测模型
如果我们希望对一个智能系统进行智能(智力)水平评测,就需要能够同时对准智能系统四个特点进行测试。检验其发展水平,通过检测能否将数据,信息和知识输入到智能系统中检测该系统知识的获取能力;通过检查智能系统知识库的容量检测该系统知识的掌握能力;通过检查智能系统能将多少数据,信息和知识转化为新的知识库内容从而检测该系统知识的创新能力。通过检查智能系统能否将掌握的知识库内容根据需求分解为数据,信息和知识向外界传递。
5.建立人工智能智商测试量表。
根据标准智能系统模型的特征要点,从知识的获取能力(观察能力)、知识掌握能力、知识创新能力,知识的反馈能力(表达能力)等四大方面建立互联网智商评价体系,并从这四个方面建立15个分测试,形成人工智能智商测试量表,
6.建立人工智能智商测试题库
根据人工智能智商测试量表,可以建立如下互联网智商测试题库,下面我们从每个分测试的题目中选取一道题目进行说明。
(1)识别文字的能力
是否能够录入字符串“1+1等于多少”,并反馈正确结果。
(2)识别声音的能力
声音读出“9+12等于多少”,能否识别并反馈正确结果。
(3)识别图形的能力
测试人员在一张白纸上画出如图3-10所示问题,测试能否识别问题关联相关图形并反馈正确结果。
(4)掌握常识的能力
世界上最长的河流哪一个?
(5)掌握翻译的能力
把“力量”翻译成日文。
(6)掌握计算的能力
234568乘以678等于多少?
(7)掌握排列的能力
请将大学生、小学生、中学生、博士、硕士按学历从高到低进行排列
(8)掌握挑选的能力
在红色、绿色、蓝色、香味、黄色、白色中挑选不属于颜色的一种。
(9)掌握联想的能力
如果用小学联想到小学生,那么用大学联想到什么?
(10)掌握创作的能力
请用一天、学生、科技、梦想等关键词创作200字以内有逻辑的小故事
(11)掌握猜测的能力
如果一个人把手中的笔扔出去,但笔没有掉在地上,而是浮在他的周围,他很可能在什么地方?
(12)掌握发现规律的能力
厨师A表示他喜欢吃猪肉、羊肉、牛肉、鸡肉、鱼肉,不喜欢吃白菜、黄瓜、豆角、茄子、土豆,请观察其中的规律,在鸭肉、芹菜中选择这个人最可能爱吃的食物。
(13)用文字表达的能力
输入字符串“请用文字回答1加1等于多少的答案”,检查被测试对象能否用文字表达出答案。
(14)用声音表达的能力
输入字符串“请用声音回答21加6等于多少的答案”,检查被测试对象能否用声音表达出答案。
(15)用图像表达的能力
输入字符串“请画出任意大小的长方形”,检查被测试对象能否用图像表达出答案。
7.人工智能智商测试规则
对于人工智能和人类测试对象,在回答题库题目时:
如果反馈回答超过一条,取第一条回答作为评判对象。
如果无法将问题输入到参与测试的对象中,则该测试对象得分为0分;
如果能够将问题输入到测试对象,但反馈结果超过一条,如果不能在第一条反馈结果中显示正确结果或回答时间超过3分钟,则该测试对象得0分;
如果问题输入给测试对象,能够反馈回答,如果回答与答案完全匹配则得25分
如果问题输入给测试对象,能够反馈回答,如果回答并不是针对问题的回答,但回答内容包含了答案,则得12分。
对于声音录入 能识别问题,但不能给出正确答案,得分5,对于图形录入 能识别问题,但不能给出正确答案,得分5。
8人工智能(AI)智商计算公式
人工智能(AI)绝对智商公式:
人工智能(AI)离差智商公式:
其中为互联网智商评测库中所有应用智商的平均值。S是互联网智商评测库中所有应用的标准差,M为互联网智商评测库中所有应用的个数。
欢迎访问《人工智能学家》微信公众号:aitits 或 人工智能学家
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 22:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社