||
图谋摘编自:卢小宾,霍帆帆,王壮,等.数智时代的信息分析方法:数据驱动、知识驱动及融合驱动[J].中国图书馆学报,2024,50(01):29-44.
《中国图书馆学报》2024年第1期刊发卢小宾等《数智时代的信息分析方法:数据驱动、知识驱动及融合驱动》。数智时代,面对大数据、大知识所带来的挑战,如何创新发展信息分析方法,关乎新时代信息分析工作的开展,关乎数据资源的开发利用。在梳理现有信息分析方法的基础上,提出数据驱动、知识驱动,以及数据与知识融合驱动的三种数智型方法思路。首先,提出基于文本、网络、音频、图像等的数据驱动以及与之相应的文本挖掘、图挖掘、音频挖掘、图像挖掘等信息分析模式;其次,提出基于专家知识库、通用知识库、领域知识图谱、通用知识图谱等的知识驱动信息分析模式;最后,提出基于特征、模型、决策三种层面的数据与知识融合驱动的信息分析模式。通过以上三种方法,构建能够系统融合大数据、大知识的信息分析方法,实现数智融合型信息分析,促进图书情报学科方法论发展赋能国家决策和社会治理。
信息分析(lnformation Analvsis,亦称情报分析、情报研究或情报调研)是在信息服务产业飞速发展的背景下,于20世纪50年代出情报科学派生出的一门新兴学科。信息分析旨在根据用户的特定需求,对大量纷繁无序的数据、信息或知识等进行有针对性的收集。处理、挖掘、分析和预测,是一种为用户提供综合、系统、实时、深度决策信息与知识的智能活动。
数智时代的信息分析方法主要体现在数据驱动和知识驱动两个方面。其一,数据驱动强调利用大数据进行分析和挖掘,让计算工具自动学习机器自我响应的规律,关键在于数据潜在的关联关系。数据驱动是第四范式思想--数据密集型研究范式时代的典型代表,即数据是现实世界事物、现象和行为在数字空间的映射,数据蕴含着现实世界的运行规律,陈国青等学者将其称作数据驱动范式,强调利用数据进行关系模式发现。虽然目前各界都在推崇大数据驱动的管理决策,但是大数据并不意味着大知识。其二,知识驱动强调让机器充分利用和学习知识,尤其是经过检验的因果关系。大数据为机器学习特别是深度学习带来前所未有的数据红利,例如大规模标注数据使图像识别准确率得到大幅提升,但深度学习也日益显露出其局限性,尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面,这些局限性阻碍了深度学习的进一步发展。在深度学习的大量实践中,人们越来越多地发现深度学习模型的结果往往与人的先验知识或者专家知识相冲突,例如著名的帕金森病因与阑尾相关的悖论案例,相关关系并不等价于因果关系,海量参数所构成的黑盒所具有的人类不可解释性,导致了模型的不可靠性及较差的鲁棒性。由此可见,数据密集型科学范式在揭示事物本质规律方面存在一定的局限性。
信息分析方法是任何信息分析工作都不可或缺的利器,信息分析方法的科学性、可靠性、可信性、可解释性、权威性直接影响结论的得出,影响能不能分析出结果以及分析出怎样的结果。信息分析方法是一个较为宽泛的概念,从信息角度来讲凡是作用于信息资源的方法都在信息分析方法范畴内。例如,定性分析方法主要有传统的比较、分析与综合、推理方法以及德尔菲法、专家咨询法等!定量信息分析方法主要有回归分析、聚类分析、时间序列分析、主成分分析、情境分析等,还有专利分析、文献分析、政策分析等混合定量视角的信息分析方法,各信息分析方法的研究机制、优缺点如表1所示(略)。
从表1可以发现,现有信息分析方法主要存在以下三个问题,①数据驱动思维欠缺。很多信息分析仍然停留在小样本质性分析层面,即小数据阶段,小样本的抽样统计问题和效率局限,致使其无法匹配当下时代要求,更无法面对大数据挑战。②知识驱动思维欠缺。现有很多信息分析方法仍然陶醉在大数据相关关系发现的惊喜中,还没有深刻认识到关联性分析背后与知识悖逆的隐患,即处于大数据小知识阶段,对大知识的利用还极其欠缺。③数据与知识融合驱动思维欠缺。目前,数据与知识融合定量层面的信息分析还非常欠缺,即大数据与大知识各自发展,大规模的知识如何系统地与大数据融合,亟待学者们创新探索,真正意义上的数智信息分析方法还尚未实现,数智融合的信息分析方法亟需创新与发展。
针对以上三个问题,本文提出数据驱动的信息分析方法、知识驱动的信息分析方法以及数据与知识融合驱动的信息分析方法三种思路,将其作为信息分析方法发展的三个阶段目标,探索构建能够系统融合大数据、大知识的信息分析方法,以期实现数智融合型信息分析,促进学科方法论发展,赋能国家决策和社会治理。
数据驱动的信息分析方法体系。数据驱动(Data Driven)的信息分析方法体系强调融合第四范式思想,即数据是现实世界事物、现象和行为在数字空间的映射,数据蕴含着现实世界的运行规律,强调从方法论视角以数据驱动的方式革新信息方法体系,如图1所示(略)。从第三研究范式到第四研究范式,信息分析的模式已经完全不同,迫切需要创新信息分析方法。(1)文本数据驱动的信息分析方法。文本数据(Text Data)是信息最广泛的载体,任何信息都需要一定的文字描述,例如科学文献、专利文本、政策文本、新闻报道、交流用语以及任何语言信息等。基于文本挖掘的信息分析,强调在广泛收集文本数据的基础上,有效清洗、处理文本数据,结合具体的文本信息分析任务,进行文本数据挖掘。文本挖掘是在自然语言处理、统计学、语言学等基础上形成的一系列分析技术和算法。(2) 网络数据驱动的信息分析方法。网络数据(Network Data)通过实体和关系表示信息,是信息结构化表达方式之一。网络数据以节点(Node)代表相关实体以及内含的相关属性信息,节点可以是人物、事物、概念、知识等任何实体,以边(Edge)代表实体相互之间的复杂关系(Relation),边可以是好友关系、引用关系、合作关系、上下级关系、交易关系、共现关系等任何直接或间接、虚拟或现实的相关关系,节点和边共同组成社会网络、引文网络、合作网络等一系列复杂网络。因此,网络数据蕴含着丰富的结构化信息,如何基于网络数据进行信息分析,关键在于图挖掘(Graph Mining)等信息分析方法的支持。(3)音频数据驱动的信息分析方法。音频数据(Audio Data)是声波数字化之后的数据,除了可根据图片、视频辨别人物外,音频也是一种重要的具有识别性的数据包含着人们的声纹特质,因此音频数据在个体识别方面具有较大的优势。并且,音频数据包含丰富的情绪特征,例如同样一句话可能有喜怒哀乐不同情绪的表达,相对于文字在感情方面的表达,音频的情绪表达更为多元和丰富,音频AV模型就根据音频的安静程度和积极性大小,将音频划分为快乐、紧张、悲伤和平静四大情绪类别,其中襄括了生气、兴奋、快乐、满意、厌倦、放松、悲伤、困倦、平和等12种二级情绪。(4)图像数据驱动的信息分析方法。图像数据(lmage Data)蕴含着丰富的图像信息,是信息分析最为重要的数据形式之一。本文所述图像既包括静态图像,也包括动态连续的图像(视频),因为动态图像实质上是静态图像的连续播放。受助于智能手机、摄像、监控等技术或产品的发展,信息分析所涉及的领域,例如经济、科技、金融、政府、公共安全等各个方面都在持续产生图像数据,图像数据直接映射显示现实世界的各种风貌,蕴含着最为直接和丰富的信息,也是大数据中体量最为可观的数据类型,图像数据是处理难度最大的数据类型之一,虽然目前在计算机视觉领域对相关图像的识别和检测准确率已经很高,但其完成的仅仅是图像处理中极为单一的任务,例如人脸识别、目标识别、移动检测等,对图像数据的分析还远远没有达到智能的程度,例如在智能驾驶领域对路况动态图像数据的实时分析还远达不到实用的要求,以致实验阶段事故频发。对图像数据进行分析,需要根据信息分析需求,对相关图像数据进行切割、模式识别、特征提取等,根据图像所包含的内容进行识别,其核心在于图像挖掘等信息分析方法的支持。
知识驱动的信息分析方法体系。知识驱动(Knowledge Driven)的信息分析强调融合知识工程思想,利用结构化知识使机器具备人类的认知功能,通过知识推理、计算等进行知识发现。知识驱动的信息分析方法,可以从基于专家知识库的信息分析方法、基于通用知识库的信息分析方法、基于领域知识图谱的信息分析方法、基于通用知识图谱的信息分析方法四个方面展开。
数据与知识融合驱动的信息分析方法体系。融合可以分为数据融合、知识融合、数据与知识融合三个层面。数据与知识的融合,不同于以往多源异构数据之间的数据融合也不是以往的不同知识库、知识图谱之间的知识融合。多源异构数据融合(多模态融合)强调在进行机器学习等任务时,将文本、图像、音频、网络等不同模态的数据融合使用,打破计算机视觉、语音与声学、自然语言处理等学科之间的壁垒,例如在进行命名实体识别时引入图像信息,能够有效消除部分歧义问题,根据融合阶段的不同,数据融合可分为早期融合、中期融合、晚期融合,知识融合(或知识聚合)强调解决大规模知识共享、利用和组织等问题,例如不同知识库或知识图谱之间的知识对齐、不同语种知识库之间的知识对齐、知识库之间的合并与重组等。也有学者将知识融合划分为基于代理的知识融合、基于模式的知识融合、基于机器学习的知识融合等发展阶段。目前,在具体融合策略方面,还没有比较成熟的研究,未来,借鉴数据融合和知识融合的思路,数据与知识的融合可以从三个层面展开。
信息分析方法是任何信息分析工作不可或缺的利器,信息分析方法的科学性、可靠性、可信性、可解释性、权威性会对结论的得出,即能不能分析出结果以及分析出什么样的结果产生直接影响。随着数字化成为社会生活新常态,我国信息管理正在逐渐进入数智发展新阶段,越发强调信息链各环节的数智化发展,强调智能化分析赋能国家决策。数智不同于以往单纯的数据,从数据到数智的跃迁是国家数字经济、数据要素与治理战略推动下的时代特征。数智时代,大数据、大知识给信息分析带来新的挑战和机遇。
延伸阅读:
2024年4月29日,卢小宾先生在南京图书馆“陶风青蓝工程”图书馆员科研能力提升培训班做的讲座。主要内容为《数智时代的信息分析方法:数据驱动、知识驱动及融合驱动》文中内容。时长90分钟。讲座末尾讲了两个应用案例(论文中没有):其一,基于机器学习的金融科技专利识别;其二,我国信息公开政策计量分析:权力主体、法律渊源与政策工具。
第27场:https://www.jstsg.org.cn/htm/mobile/live/index.html#/LiveDetails?live_id=298
2024.04.29 14:15 42146人次观看
内 容:《数智驱动的信息分析》
主讲人: 卢小宾(中国人民大学信息资源管理学院教授、博士生导师、学术委员会主任,教育部“长江学者奖励计划”特聘教授,全国图书情报专业学位研究生教育指导委员会副主任,中国科技情报学会常务理事,情报理论方法与培训专业委员会主任,《情报学报》《图书情报工作》等核心期刊编委)
主持人:李浩(南京图书馆研究部(国学研究所)主任、江苏省图书馆学会秘书长、研究馆员)
专家简介:卢小宾,中国人民大学信息资源管理学院教授,博士生导师,学术委员会主任,教育部“长江学者奖励计划”特聘教授,全国图书情报专业学位研究生教育指导委员会副主任,中国科技情报学会常务理事,情报理论方法与培训专业委员会主任,《情报学报》《图书情报工作》等核心期刊编委。主要研究方向:信息分析、信息咨询、信息管理等。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-4 01:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社