|||
网址 |https://www.acemap.cn/academic-report/knowledge-graph 指导老师 | 张伟楠 王新兵 教授 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能大家族中低调的孩子 人工智能最早要追溯到1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批年轻科学家在一次聚会中,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着AI的正式诞生,但是从那个时候开始,人工智能家族的繁衍当中,渐渐的形成了三大学派,这三大学派都在为人类的人工智能事业做贡献,宣传和鼓动更多的有志青年加入人工智能的大家族中。 人工智能这个家族的理想抱负是将赋予思维机器,将感知赋予机器,让机器有能力做出决策与相对应的行为。我们来看看AI届的三大学派都是如何为家族实现理想抱负的。 要说人工智能,现如今最火的莫过于深度学习和各种神经网络了,他们自诩仿生学派(bionic)也允许大家叫他们生理学派,信仰着连接主义(connectionism),他们认为神经网络相连接的这种人脑模型是AI能够实现其家族抱负的方法与途径,所以他们认为研究AI实际上是一个仿生学的工作。 这个学派最早是1943年初次提出神经元模型,由生理学家麦卡洛克(McCulloch)和数理逻辑学家皮茨(Pitts)创立的脑模型,即MP模型。后来的他们推陈出新,创造了神经网络,真正的用神经元等概念成功的模仿了人脑神经细胞的工作,通过不断的赋权和阈值划分得到最后的分数来判断事物,目前这个学派已经在图像识别、语音识别等一系列分问题上充分发挥了他们的作用。 神经网络可以发展到今天逐渐形成系统的深度学习体系,包括CNN和RNN在内的主流模型也都在一步步的发展。 但是呢,连接主义也有他的局限性。使用过CNN等连接主义产品的人很好理解的是,我们很难用因果分析关系来解释其活动的过程。在这个角度我们往往会有人质疑深度学习的可解释性和其特有的黑盒效应。所以目前,能否合理并且可解释的分析深度学习的活动过程也是一个不错的研究方向。当然他不是我们今天的主角。 人工智能在普罗大众的眼里,可能很容易想到一个物件——机器人。机器人很大程度上是行为主义学派的产物。主张行为主义的他们认为AI源于控制论,所以他们又自诩控制论学派,认可AI的原理是控制论和感知-动作型控制系统。目前的智能控制和智能机器人系统都是这个学派的产物。典型的代表是Rodney A. Brooks发明的可以上下楼梯的多脚协调行走的机器蝗虫。 这个学派的主要特点是有一套“激励-响应”的设计模式,这种模式很实用,也符合人的行为特点,在实现方面,这个学派的产物易于物理实现。当然,在描述的过程中,就体会得到:缺乏系统理论指导,需要加强规划以及决策性的知道与体系结构的分析与支持才能有效的完成这个学派的发展。显然这看上去也不是我们今天的主角。 今天我们的主角可终于来了,这个学派立足于逻辑,遵从逻辑主义,自称为心理学派和计算机学派或者是逻辑派亦或者是功能派。其原理主要是物理符号系统和有限合理性原理。好了这究竟是什么? 这个学派认为AI源于数理逻辑,每一次的决策都是通过符号表示下的逻辑运算(符号运算)得到的。最早是在1950s,逻辑理论家出现,衍生出60年代的GPS和70年代的专家决策系统,他们在1980s有着很大的发展,那段时间,专家系统蓬勃发展,由纽厄尔(Newell)、西蒙(Simon)和尼尔逊(Nilsson)等代表人物,将人工智能推向工程应用和实现理论联系实际有着特别重要的意义。到了九十年代的人机博弈到新世纪的现代演绎战争等等都是这个学派的代表性产物。 当然,既然涉及符号,那么就必须会遇到如何用符号去表示一个问题,如何逻辑化一个推理过程这样子的抽象问题,这类问题能否解决或者解决方案的有效性实际上是取决于在将信息转化为符号的过程中,到底有多少信息损失了。同时带有高度噪音的数据,也很难找到合适的符号表达。但是如果找到或者学习出某些高维的表示,这些信息也许不会被丢失的太多。 这三个学派在他们的发展过程当中,经历了不少的坎坷和波折,但是终究在今天的人工智能领域有着自己的一席之地,符号主义发展为今天的知识图谱,连接主义和行为主义也成为了如今耳熟能详的深度学习和强化学习,他们的点点滴滴也归结为人工智能的三种研究方法——功能模拟法、结构模拟法以及行为模拟法。在智能化的时代,只有这三个学派相互结合,互为辅助才能友好的推动人工智能的发展,因为这样才能解决各自的局限性发挥各自的优势。 图4 三大学派的演进 之后的内容,我们就以知识图谱为核心,叙述其在符号主义的范畴内,如何结合其他两个学派的成果,实现人工智能的研究目标的。在这之前,我们要讲讲知识图谱的理论前身——语义网络的故事。 孩子初长成--语义网络 本章内容有部分摘自鲍捷博士的网课PPT 语义网络是由Quillian于上世纪60年代提出的知识表达模式,其用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间的关系。我们先来看下语义网络的一个简单例子。 从图中,我们可以看到语义网络的几个优点: 容易理解和呈现出来。这幅图就是很简单的描述了动物的几个层次的从属关系。 相关概念容易聚类。哪些动物是哺乳动物哪些动物不是,一目了然。 但是也很容易看到这语义网络的缺点: 节点和边的值没有标准,完全可以是自己定义,is_a和is a或者甚至可以用belongs_to。 由于每一个数据的来源都相对应有一个过去的标准,而语义网络的规范性也是来源于用户本身,所以多源数据融合比较困难。 同样,不管是mammal还是whale,都有若干条is_a的出边,所以,无法区分概念节点和对象节点。同理也很难定义其边和结点的label。 当然,第三个缺点我们可以这样理解,当我们看到这个图的时候,我们知道了动物的种类关系,但是从逻辑性的角度看(逻辑学家如是说),推理怎么做,怎么去自动化这个推理的过程。简而言之,语义网络可以比较容易地让我们理解语义和语义关系。其表达形式相对简洁,然而,由于缺少标准,其比较难应用于实践。这个时候RDF的提出解决了语义网络的前两个缺点,在节点和边的取值上做了约束,制定了统一标准,为多源数据的融合提供了便利。 而第三个缺点迫使语义网络变成了Description Logic(描述逻辑)。当时(1960s)的思路,就是不考虑成本,考虑的就是正确性和完备性,对应到机器学习里面就是准确率和招回率。怎么能够达到最好的状态呢,后来发现了这么一个东西,叫做描述逻辑。但是很遗憾,也没能完全的解决完备推理的问题,于是语义网络的发展遇到了真正的瓶颈期——语义网络的表达能力是否足够以及是不是所有的自然语言或者逻辑思维的事物都可以用语义网络来表示呢。在这个方面,科学家们努力进行着自己的研究,“Some Relations Between Predicate Calculus and Semantic Net Representations of Discourse”一文提供了一个将语义网络转化为谓词逻辑,“Extending The Expressive Power of Semantic Networks”一文则提供用语义网络来表示一阶谓词逻辑中的连接词和量词的方法。这似乎是将语义网络边成一个能表达一阶逻辑的工具了,但是从知识表示和推理的评价标准的角度来看(要看这个方法是不是能够表达知识,是不是能够支持高效的推理)语义网络相比起一阶逻辑,在两者都能表示一定的知识的情况下,是更可以进行高效推理的一个(一阶逻辑的推理是不可判定的)。 图7 描述逻辑 到了80年代,人工智能的一个小高峰——专家系统和知识工程出现了,特别是基于规则的一众专家系统走向人工智能发展前沿。这一时期,语义网络得到了丰富,其研究方向开始转向具有严格逻辑语义的表示和推理。后来逐渐提出了概念(concept)间关系的建模,提出了术语逻辑和增强描述逻辑等等,著名的代表就是“The FaCT System”一文提出的推理机。从这以后,语义网络的历史使命逐渐由语义网络取代。 逐渐壮大的青壮年--语义网和RDF 部分表述摘自漆桂林老师和鲍捷博士关于知识图谱发展的演讲 语义网是由网络的创始人Tim Berners-Lee及其合著者通过《Scientific American Magazine》发表的论文“The Semantic Web”提出的,引领了一个全新的时代。语义网跟传统网的一个很大的区别是用户可以上传各种图结构的数据(采取的是W3C的标准RDF),并且在数据之间建立链接。这里提到了一个词:RDF,他在语义网的范畴内扮演着举足轻重的作用。RDF(Resource Description Framework, 资源描述框架)的格式也沿袭语义网络中的主语谓语和宾语的三元组形式: 只不过,从原本的描述,变成了一个资源标识符URI(Uniform Resource Identifier,统一资源标识符),用于表示对应的资源存储的位置,也符合语义网中网的概念,如图: 图9 RDF三元组 RDF从出现到发展到现在也是一个漫长的过程,从一开始出来,到后面每个资源有个自己的类,到被科学家赋予语义,再到2014年提出的RDF1.1范式,在这个背后OWL/W3C组织做了非常大的贡献。 从RDF的范式发展到了今天,通过结合不同的表达,形成了一系列的数据的存储形式: 所以综合以上对RDF的介绍,RDF一开始是⼀一个没有语义的元数据框架,因为推理理的需要加上了了语义,之后为了和OWL统一,两个语⾔言都采⽤用了了复杂的模型论语义,支持了基于规则的推理。但在实践中,推理很少被用到,所以⼤部分场合下RDF只是被用为一种数据描述语言。这个显然不是语义网工作者,或者是现在知识图谱工作者希望看到的。所以笔者认为,RDF作为数据交换语言,并不意味着需要同时作为数据存储语言,或者数据建模语言。所以,有很多科学工作者制作了很多RDF数据集,提出了了很多高质量知识库,比如说谷歌的Freebase、以及大型百科数据集DBpedia和大型人工数据集Yago等,这些知识库都是来源于人工编辑的大规模知识库-维基百科。这些高质量的知识库的发布,为谷歌知识图谱项目的成功打下了坚实的基础。 那么有了这个,该如何存储呢,这就是个很大的问题了。如果数据是简单的关系型数据,直接用SQL支持的数据库就可以了,如果是非结构化数据库,也有很多选择,类似RDF这样的图数据,也有可以存储的图数据库。但是不同的图数据库也有不同的存储方案,有的是根据计算机存储的特殊范式,对图进行编码进行存储,例如北大邹磊老师团队开发的gStore系统,有基于关系型数据库,构建属性只有主谓宾的表的,例如Jena和Virtuoso等,这个在之后的篇章中会有详细的说明。 当下的内在灵魂 本文从非常久远的1960s讲到了现如今,讲了知识图谱的一些前身的故事,那么究竟什么是知识图谱呢,现在的定义是怎么样的呢。本文重点从语义网络和语义网的角度陈述了知识图谱的发展,大家可以体会到:知识图谱应该是基于文本的一个个超链接,并且用语义关系将这些数据联系起来,同时支持语义搜索和推理。而我们以全局的角度看知识图谱知识图谱还可以有别的定义: 从自然语言的角度,知识图谱是用于存储从非结构化数据中提取出来的有用信息的地方。 从知识表示和表示学习的角度,知识图谱是通过用计算机能够理解的符号处理知识的框架。 从数据库的角度来看:知识图谱是存储在图数据库中的基于图的数据。 从人工智能发展到现如今的角度来看:知识图谱是帮助机器或人工智能系统更好的理解人类的文本、语言等非结构化数据集的有效工具。 谷歌也归纳出数据库和知识图谱相结合的优势点: 图13 摘自油管Google I/OAI的三大学派的家族复兴史
-----------------------------------------------------------------------
《海洋生态大讲堂》微信公众号
浙江省重点智库宁波大学东海研究院合作微媒平台
海洋在说话,您我来代言!
《海洋生态大讲堂》欢迎您!
投稿邮箱:550931758@qq.com
请您在留言中标注为《海洋生态大讲堂》投稿,
并提供个人简历及联系方式。
我们筛选审核后,将以全文刊出!
热烈欢迎广大自愿者合伙参与公众号运营!
附: 投稿类型与要求
(1)主题一定是有关海洋生态学内容的稿件;
(2)原创文章,请配必要的图表;
(3)好文推荐,直接发来原文,或请注明出处;
(4)重要会议报道或信息,请附必要图表及其标题说明;
(5)重大项目科研进展,或重大会议学术报告PPT;
(6)重点团队介绍,或重要人物专访。
您的赞赏是我们前行的最大动力
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 10:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社