|||
近几年来,有一种智能机器人越来越火,就是聊天机器人。
这些产品有的仅仅是一个手机应用、有的像一个小音箱、有的像个真人。他们的用途各异,有的帮你查找数据,识别骗局;有的可教小朋友学外语;有的可陪人聊天拉家常,告知天气;有的可听你口头指令给你播放音乐,控制家电;有的能接受你的提问,口头为你提供专业事务的办事指南等等。
在这些产品的背后,支持它们能听懂人话的高科技,就是知识图谱技术。
知识图谱的技术不仅能支持实现聊天机器人,还能在金融、农业、电商、医疗健康、环境保护等大量的垂直领域得到广泛的应用。如:金融领域公司通过构建金融知识库,可进行碎片化金融数据的集成与管理,并辅助金融专家进行风控控制、欺诈识别等;生物医疗专家通过集成和分析大规模的生物医学知识图谱,辅助其进行药物发现、潜在靶点识别等多方面任务。
可以说,知识图谱技术正逐步广泛深入地进入人们的工作、生活甚至个人情感的方方面面,逐步显示和发挥出她对人类社会深刻而久远的影响力。
那么,知识图谱到底是一项怎样的技术呢?接下来我带大家进行一番探究。
作为一类产品,知识图谱最早是由Google在2012年推出并命名的。Google率先在搜索引擎中引入知识图谱技术,大幅的提升和优化了搜索体验,可让搜索引擎从语义层面理解用户意图,显著地改进搜索质量。
但知识图谱作为一门技术,如果要探究其技术及其背后的思想起源,则应将时间上溯到1922年著名英国哲学家维特根斯坦和他的《逻辑哲学论》。受罗素、弗雷格哲学思想的影响,维特根斯坦提出:世界是由事实组成的,而不是由对象(事物)组成的,对象相互链接的行为即为事实,事实不断进行累积而形成的一个统一巨大的事实,就是这个世界。维特根斯坦所言的事实,就是用对象及其关系的语言符号来描述的逻辑结构图景。我们就是通过产生和组合这样的关于事实的逻辑结构图景,形成一个巨大的逻辑结构图景,来清晰地表达我们对世界的认识的。
维特根斯坦主张哲学的本质就是语言。语言是人类思想的表达,是整个文明的基础,因此哲学的本质只能在语言中寻找。这一思想对哲学乃至数理逻辑都产生了划时代的影响,为知识图谱技术直到今天的发展,奠定了深刻而牢固的思想基因。揭示了知识图谱的本质,就是对“事实”的表述和记录,即:用对象及其关系的语言符号来描述的客观世界的逻辑结构的图景。
上世纪50年代,同样受罗素、弗雷格哲学思想影响的美国科学家司马贺使认知心理学和计算机科学相结合产生了人工智能这一新学科。以司马贺与纽威尔等代表的人工智能的“符号主义学派”长期占据人工智能的主导地位,逐渐发展了启发式算法->专家系统->知识工程理论与技术,并在20世纪80年代取得很大发展,知识图谱技术的基础:语义网技术,就是在期间发展起来的一种卓著成效的知识表示技术,知识图谱在这一阶段中完成了从哲学思想到科学实验,再从科学实验到工程技术蜕变过程。
“符号主义学派”的技术路线在发展中遇到了将人类知识形式化的困难、以及符号运算“组合爆炸”的问题局限。幸好这一局限在进入21世纪后的20个年头内,很快被属于人工智能的“连接主义学派”在机器学习方面的重大突破:卷积神经网络深度学习得以弥补,使得人工智能技术再次换发了青春,知识图谱终于迎来了从工程技术到商用产品发展的历程。
从人工智能的发展历史和内在内容来看,知识工程是人工智能发展的产物以及一个分支,其目标是建立可供计算机使用的知识库;知识工程主要包含知识获取、知识表示和知识运用三大要素,其中知识表示方法有:逻辑表示法、产生式表示法、语义网表示法、面向对象表示法、本体表示法等;而知识图谱技术则是从语义网表示法发展出来的一种知识工程技术。
一般来讲,知识图谱由知识获取、数据融合和知识计算三部分技术组成。知识获取技术主要实现从非结构化、半结构化以及结构化的数据中获取知识;数据融合技术则负责将从不同数据源中获取的知识进行融合,确保全局知识的一致性;知识计算技术主要负责基于知识图谱的计算功能进行知识推理的应用。
从逻辑结构来看,知识图谱分为数据层和模式层两个层次。
在数据层,知识以事实(fact)为单位存储在图数据库中。通常以“实体-关系-实体”或者”实体-属性-值”三元组作为事实的基本表达方式进行存储,存储在图数据库中的所有数据将构成庞大的实体关系网络,即得到知识的图谱。
模式层是知识图谱的核心,存储经过提炼的知识,通常采用本体库来管理知识图谱的模式层。借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。
从知识图谱的构建过程来看,是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息获取、知识融合以及知识加工。知识图谱的构建/更新的一般过程示意图如下:
其中的关键技术为:关系抽取技术、知识融合技术、实体链接技术和知识推理技术。关系抽取技术的目标是从半结构化和非结构化数据中识别实体的关系;知识融合技术的目标是将从多个数据源中抽取的知识进行融合,并需考虑不同工具抽取的噪声排除、本体的融合和实例的融合;实体链接技术的目标是对实体进行消歧,也就是解决在特定场景中对自然语言中的多义词的义的选择问题;知识推理技术的目标是从已有的知识图谱中推理出新的实体关系,并可对知识图谱进行逻辑冲突检测。
以上每一类关键技术都有基于不同基本原理,采用不同的逻辑或统计方法的手段,来实现相同的技术目标的不同技术方案,各有所长缩短,有的已投入实用化,有的仍处于学术研究阶段。
从实战应用的角度来看,传统的知识处理方法,在实际的工程应用,特别是互联网应用中,面临实施成本高、技术周期长、熟悉该类技术的人才缺乏、 基础数据不足等诸多现实制约。实战中的知识图谱,需要充分利用成熟的工业技术,不拘泥于特定的工具和方法,特别是不盲目追求标准化、技术的先进性或者新颖性,以实际的业务出发,大胆进行应用创新,并循序渐进推进工程的实施,比如:在恰当的场景下,采用众包和人机协同的方法来进行知识图谱的构建与质量提升等方法等是值得考虑的。
知识图谱技术的最终目标是实现知识的自动化抽取、融合、加工和应用。其核心价值不仅在于能降低知识发现、传播和应用的成本,还在于能将隐性的知识显化,从而促进个体、小群体的知识融合为一个团体、大群体共同的知识,构建人类及人工智能的知识共同体。其价值的重大,影响之深远,应用的广泛程度,还有极大的挖掘潜力。反过来说,其技术架构和核心关键技术,依然有丰富的创新机会。
比如说,目前对知识图谱最热门的应用方向之一:智能聊天机器人,事实上应归属于沟通类应用,但却只把注意力放在了博眼球的人机沟通方面,对于帮助解决人与人的沟通中存在的大量的实际问题,却没有引起太多的关注。比如,网络上的网友互聊,老师对学生的教学讲解、专家对专家的学术交流、甲方和乙方的合同洽谈、软件开发方和用户的需求沟通、销售员对客户的宣讲、大众对技术支持的询问,心理医生对患者的诱导,律师对当事人和法官的陈述,演讲者对听众的讲述等等等等,在大量的人与人的沟通场景中存在的沟通障碍,还在严重阻碍人与人之间沟通顺畅的背景下,直接用机器来代替人来和人的沟通,除了短期博人眼球外,并没有太大的实用价值,凭现有技术条件,想真正地实现机器与人的全方位自然沟通,未免有好高骛远之嫌。而且,利用知识图谱辅助人与人的沟通,由于沟通双方都是人类,知识图谱只需在人与人沟通的过程中,起到辅助作用,对技术的要求远低于人机对聊。并有助于在辅助人类沟通的过程中,逐渐实施自然的机器学习。
目前,知识图谱用于辅助人与人的沟通方面的应用,却基本还是空白,可见这其中蕴藏着的巨大社会价值和商业机会。
如何实现知识图谱对人与人的沟通的辅助支持作用呢?
最近,本人在CSDN分享了一篇达人课“从‘零’开发一款知识图谱应用产品”正在回答、并实施这个过程。说是达人课,实际是对本人从零开始搭建一个知识图谱辅助人类沟通应用产品的全程的精选实录,开放的不仅仅是源代码,实际上包括了产品创意、分析、设计、编码、测试的全过程的讲解。其中不乏对原创核心技术的原理剖析,代码实现及测试设计与实施。无论是从学术性、技术性还是实战性的角度来说,本人都拿出了多年从事软件研发的压箱底的干货。本人开课开源的目的不为别的,就是为了吸引更多的朋友,参与到利用知识图谱解决人类沟通障碍问题,实现人类知识共同体的事业中来。
首轮的课程包括10讲,现已接近尾声。内容包括产品创意来源、最简语义网引擎项目起步、python面向对象编程、从语义原子、分子、细胞到小生命诞生整个开发过程精选实录,个人认为比较得意和精彩的部分是刚刚完成的第8,9节内容,讲述了语义对象池技术的应用和原创“呼吸式”持久化机制的实现与白盒测试过程。整个课程全方位展现了本人对未来产品的核心技术部分的大胆创新、精心设计与严谨实施的过程。
伴随本人对项目的不断推进,将有更多的技术话题展开。课程也将陆续推出第二轮,第三轮...,直到完成最终产品的开发。至于最终产品的形态、功能和使用方法,将会在最后一轮课程中揭晓。项目源码也将逐步发布到github上供读者下载。
最后,借本文机会对CSDN倡导的DCO(分布式协作组织)发表一些个人理解。个人认为:分布式协作组织,是一种借助互联网通信联络和知识信息处理工具、连接众多的知识工作者,一起以自组织的方式形成的弱中心化的,以完成知识
生产和应用任务为目的的生态系统。其中的知识、信息处理工具,包括以区块链技术为基础的通证经济系统,将支撑最基本的价值网络的运转。而以知识图谱为基础的知识共同体构建系统,则将成为必不可少的业务支撑平台之一。希望未来本项目能最终成功开发,为DCO的构建和运营贡献绵薄之力。
2018年8月8日
邱嘉文
于深圳.福田
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社