|
在概念与算法的发展支撑下,各种数据分析和系统建模的方法大量涌现。由于认识到并强调用户与数据之间的互动,以人为中心的方法在诸多方法中始终占有特殊的一席之位。
加拿大皇家科学院院士、加拿大计算智能研究中心首席科学家Witold Pedrycz教授在IEEE/CAA Journal of Automatica Sinica发表的综述 “Granular Computing for Data Analytics: A Manifesto of Human-Centric Computing”中指出,粒计算是一种重要的人本计算,通过粒计算可以方便地实现并灵活调整抽象化水平。粒计算与信息粒的发展与处理紧密相关。针对可用的数据及其数据间的关系,利用信息粒可形成一种便利的知识组织方式。Pedrycz教授在该文中明确了粒计算的基本原则,归纳出信息粒构造的方式,并展示了如何利用信息粒刻画数据的内在关系。
文章导读
人类智能的一个公认特点, 是人们能将复杂的问题分解成不同层次的多个子问题,从不同的层次上观察和分析同一问题,并能够很快地从一个层次跳转到另一个层次, 往返自如, 毫无困难,并最终选择合适的解决方案,这种能力是人类求解问题的强有力表现。粒计算正是模拟了人类这种思维特征,将数据首先进行粒化,通过不同程度的抽象化处理,得到多层次多语义的信息粒,并最终构成内涵丰富的信息框架,提供一个急需的概念与算法的环境。对于不同的实际问题,粒计算为问题求解提供了丰富的选择空间,我们可以关注不同的粒特征,在结果的精度、价值、可解释性、稳定性等多方面进行权衡,选择合适的层次,得到合理的知识表示。在解决特定问题时则可忽略不必要和不相关的细节, 只关注适当层次, 从而简化了问题的求解。
信息粒可视为人们将现有的知识和可获得的证据组织起来,形成一个有意义、语义健全的实体系统。它具有易于理解的结构,在人类认识和决策过程中扮演着关键角色。在人工智能领域,信息的粒化是问题求解的核心,即将问题进行分解,形成多个子问题,以便分而治之。
粒计算包含了丰富的概念和方法,如图、信息表、映射、知识表示、微观/宏观模型,关联发现与数据挖掘,聚类与规则聚类,分类等,并广泛应用于时间序列分析、预测、制造、概念学习、感知、优化、信用评级和芯片数据分析等多种任务中。
Pedrycz教授指出:(1)信息粒是知识表示与处理的关键组成部分;(2)信息粒的粒化水平(即信息粒的大小)是问题描述和问题解决全局策略的关键;(3)信息粒构成的多层次结构支持现象感知的一个重要特征,即在处理复杂问题时,可灵活地选择某个层次,只关注问题最核心的方面;(4)不存在一个通用的信息粒化水平,粒的大小由问题的特征和用户的喜好而决定。粒计算的思想在不同的理论框架中都得到了很好的发展,主要包括集合论、模糊集、粗糙集等。
信息粒的构造是粒计算的关键,主要从五个方面介绍了信息粒的形成方法与主要特点。(1)聚类是从数据到信息粒的主要途径;(2)合理粒度的原则,引入覆盖度和特异度的概念及其形式化定义用于评价粒度的合理性;(3)信息粒的符号视角及其符号表征,我们可将一个信息粒视为一个符号,忽略其数字细节,并在后续处理中采用符号的形式进行计算,这在人工智能中也有广泛应用;(4)粒计算在时空数据中的探索;(5)粒原型的建立。
最后,讨论了分布式数据分析与建模的两种主要方法——主动聚合机制与被动聚合机制。