Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

[转载]联邦生态:从联邦数据到联邦智能

已有 226 次阅读 2021-1-25 18:26 |个人分类:智能科学与技术学报|系统分类:论文交流|文章来源:转载

微信截图_20210125181530.png


联邦生态:从联邦数据到联邦智能


王飞跃1,2, 王艳芬3, 陈薏竹1, 田永林1, 齐红威4, 王晓1,2, 张卫山5, 张俊6, 袁勇7

1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190

2 青岛智能产业技术研究院,山东 青岛 266109

3 中国科学院大学资源与环境学院,北京 100049

4 数据堂(北京)科技股份有限公司,北京 100192

5 中国石油大学(华东)计算机科学与技术学院,山东 青岛 266580

6 武汉大学电气与自动化学院,湖北 武汉 430072

7 中国人民大学数学学院,北京 100872


【摘  要】针对大数据时代广泛存在的数据孤岛问题,从整体入手,提出了联邦生态的基本框架,并探讨了其结构和运行机制。联邦生态以数据隐私可控为前提,以区块链技术为支撑,以联邦智能为驱动,借助联邦控制实现数据联邦化,通过联邦管理实现服务联邦化。为打破数据孤岛问题,联邦生态充分发挥了大数据和人工智能的潜力,进而为实现联邦智能提供了一种新的思路。

【关键词】联邦生态 ; 区块链 ; 联邦智能

【引用格式】

王飞跃, 王艳芬, 陈薏竹,  等. 联邦生态:从联邦数据到联邦智能[J]. 智能科学与技术学报, 2020, 2(4): 305-313.

WANG F Y, WANG Y F, CHEN Y Z, et al. Federated ecology: from federated data to federated intelligence[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 305-313.



1.引言


随着大数据和人工智能的快速发展,现代社会对数据隐私保护和信息安全提出了新的要求。目前,机器学习尤其是深度学习在计算机视觉、自然语言处理及推荐系统等领域取得的成功,均建立在大量数据的基础之上。然而,在许多应用领域,数据通常以分布式的形式存在,受限于法律、法规和版权要求,数据难以进行有效的流通,人们不得不面对难以桥接的数据孤岛问题。在法律层面,目前的监管框架对数据的采集和处理提出了严格的约束,我国的《中华人民共和国网络安全法》《中华人民共和国数据安全法》与《个人信息保护法》等,均对个人隐私信息的收集、存储、使用、告知、处理等有严格规定。因此,必须对不同个人或组织之间的数据收集和共享加以规范。面对数据分散化的服务场景,如何在确保信息安全的前提下实现对数据的有效利用成为亟待解决的问题。

与此同时,在万物互联的背景下,传统云计算在实时性、传输带宽、能耗和数据安全方面存在技术瓶颈,这催生了面向边缘设备所产生的海量数据计算的边缘计算模型。思科在《2020 年全球网络趋势报告》中指出:到2021年,边缘托管容器数量将达到7亿,2022年物联网(Internet of things,IoT)设备数量将达到146亿。在技术性能迅猛增长的推动下,当今世界变得日益互联、数字化、广分布并且多样化,几乎每个“事物”都具备数据处理的能力,这为信息的分布式处理提供了基础保证,同时也对数据处理和利用模式提出了挑战。基于单点数据的数据分析难以充分利用大数据的优势,这往往会导致模型缺乏泛化能力,因此需要联合各节点数据和算力资源,实现数据的充分有效利用。《新一代人工智能发展规划》明确指出群体智能的研究方向对于推动新一代AI发展有着十分重大的意义。突破其理论和技术瓶颈将为整个信息社会的应用创新、管理创新、体制创新与商业创新等提供核心驱动力,其中的核心问题是如何在节点数据隐私可控的前提下,通过管理与控制构建节点的联邦,基于群体数据与算力资源提供优质服务,进而实现群体智能。

对分散场景的研究已经取得了诸多技术突破,如分布式存储、边缘计算、区块链技术和联邦学习技术。其中,分布式存储为大数据日益增长的存储需求提供了一种解决方案,通过网络互联的方式将大量的普通服务器联合作为一个整体,对外提供存储服务。与此同时,网络边缘设备产生的数据量的快速增加又对数据传输带宽和数据处理的实时性提出了更高的要求,推动了基于分布式存储的边缘计算的迅速发展,为群体数据的联合处理提供了技术基础。区块链技术具有去中心化、难以篡改和可编程等特点,在数字加密货币、金融和社会系统中有广泛的应用前[3]。在模型训练方面,分布式机器学习充分利用了节点算力等资源,为大规模数据的训练提供了可能。联邦学习在避免用户隐私泄露的情况下,探索了模型参数更新和训练策略。这些技术在数据存储、计算、传输、学习等多方面取得了突破,但其往往专注于分布式场景的一个环节,缺乏对系统的整体思考和协调,尚未打通从数据生产到数据使用,再到服务与智能的环节。在针对智能化生态系统研究的思想基础上,本文提出了从数据到智能的联邦生态理念。为打破数据孤岛,联邦生态充分发挥大数据和人工智能的潜力,进而为实现联邦智能提供了一种新的思路。联邦生态的理念不仅适用于具有中央领导节点的联邦之间,还适用于中央节点弱化或缺失的邦联之间。邦联节点间通过松散联盟构建起协作关系,联邦生态的出现有助于加强对各节点隐私的保护,调动邦联节点的积极性,从而提高邦联成员的参与度,更好地完成对外服务,提高邦联的整体性能。


2.联邦生态的基本框架及意义


联邦生态指在分布式的联邦节点间,以基于区块链的联邦安全、联邦共识、联邦激励、联邦合约为支撑技术,以联邦数据、联邦控制、联邦管理、联邦服务为核心的面向隐私保护和数据安全、资源协同管理的统一整体。联邦生态以数据交换时的隐私可控为前提,通过联邦控制实现数据联邦化,通过联邦管理实现服务联邦化,借助人工智能和大数据技术实现群体智能,驱动整个生态的创新和进步。

2.1 联邦生态的基本框架


图1为联邦生态的基本框架,主要包括联邦数据、联邦控制、联邦管理、联邦服务4个模块。其中,联邦控制负责对联邦数据进行调度控制,进而实现数据的联邦化;联邦管理则负责对联邦服务进行规则制定,进而实现服务的联邦化。上述流程均在基于区块链的联邦合约、联邦共识、联邦激励、联邦安全4项联邦安全共享协议的支持与约束下进行,保证了整个联邦生态的安全与稳定。


微信截图_20210125182325.png


总体来说,联邦生态能够实现从上游数据、中游技术到下游应用的产业链。目前,数据垄断问题逐渐引起人们的注意,许多重要数据可能被控制在少数人手中,并被不合理地分配和使用,导致数据流动受限。然而,合理、科学、有序的数据流动将有助于数据资源的优化配置和使用,推动大数据技术的创新。在联邦生态中,所有个人、企业和组织都可能成为数据供应方,并且能够全权控制本地数据的安全共享与传输,这有利于激励有特定服务需求的各参与方通过安全加密的方式进行数据交换,从而防止数据垄断的发生。在技术层面,区块链技术与联邦学习算法分别从安全协议与训练方法方面为联邦生态提供了技术支持。进一步,联邦生态可以辐射诸多下游应用场景,如金融产业、智慧医疗等。

2.2 联邦生态的意义


(1)联邦生态有助于在保护数据隐私、满足版权和法规要求的前提下,实现对数据的有效利用
现实中虽然存在海量的数据,但是数据安全法规、隐私法规、版权不清等问题导致数据难以流通,限制了人们对数据的利用。联邦生态充分考虑了法律、道德等社会性问题,在不违反数据安全法规、隐私法规的前提下,实现了对数据隐私的保护,打通了从数据生产到使用的各个环节,有利于实现对数据的充分利用和挖掘。

(2)联邦生态能够解决信息不对称的问题,可以有效防止数据垄断
物联网、云计算和大数据驱动下的新智能时代面临信息不对称的问题,如何开放智能算法,开发人工世界,最终消除“智力的不对称”是新智能时代的历史任务。联邦生态的构建是推进这一进程的助燃剂,其通过基于区块链的联邦安全共享协议,克服联邦节点由于信息不对称导致的欺骗问题。

(3)联邦生态能够建立联邦节点间的信任关系,维系可信任的分布式系统
在区块链技术中,共识机制和密码学算法使得数据极难被伪造和篡改,并且区块链系统采取建立在隐私保护基础上、公开透明的数据读取方式,从而降低节点的信任成本和系统不确定性。在区块链技术的基础之上,联邦生态可以建立相应的共识与合约,从而建立互信的联邦生态系统。

(4)联邦生态能够推动从数据、服务到智能的自动化转变
知识自动化是一种以自动化的方式变革性地改变知识产生、获取、分析、影响和实施的有效途径。人们可以将联邦生态视为一种由服务驱动的知识自动化系统,其核心问题在于如何从特定的服务环境和分布式的联邦节点出发,实现从数据、服务到智能的转变。

3. 联邦生态的核心


联邦生态旨在联合分布式节点的计算和信息资源,在保障数据隐私可控的前提下,对上层需求提供智能化服务,联邦生态的层级结构如图2所示。其核心在于向上对特定需求进行响应,针对社会性问题构建管理机制与应对方案;向下对分布式节点实现有效控制,解决实际系统中的工程性问题。本节将从这两个方面对联邦生态的核心进行阐述。


微信截图_20210125182334.png

3.1 联邦服务与联邦管理


联邦服务是联邦生态对外赋能的窗口,目的在于为不同组织提供面向不同场景和问题的智能化方案。区别于集中式的服务,联邦服务可以摆脱数据隐私涉及的法律和道德等方面的问题,同时不需要数据集中的成本,因此更适用于拥有海量分布式数据的场景。从联邦对象的角度来看,联邦服务能够提供不同粒度的解决方案,既能针对不同设备实现设备级别的联邦,又能够针对不同机构或行业实现跨域联邦。从提供服务的类型来看,联邦服务能够借助海量多模数据和人工智能等相关技术提供包括视觉、语音、文字等多样的功能,进而满足各种个性化需求。

联邦管理是实现联邦服务的第一步,其通过结合系统的实际情况,将服务的目标转换成执行的规划,制定系统运行的规则和蓝图,以满足联邦服务提出的要求。联邦管理需综合考虑政策、法律、效益等社会性因素,还要考虑存储、计算、通信等工程性因素,在保证系统安全稳定运行的前提下,使联邦收益最大化。联邦管理的输出是一组由自然语言定义的商业逻辑和运行规则,规定了联邦中节点的选择和激励策略以及每个节点的角色和动作,同时对节点协作方式进行了规范,以期实现联邦服务的目标。


3.2 联邦数据与联邦控制

联邦数据是联邦生态运行的物质基础,它是一个由一系列联邦节点构成,并通过节点数据进行信息交流和协作的分布式网络。从功能的角度来看,联邦数据可被分为数据采集、数据存储、数据计算以及数据通信等层次。其中,数据采集层是由多传感器网络构成的数据生产单元,每个节点独立地进行多模态数据的收集和标定。数据存储层不仅保存本地数据,还要对接收到的模型和指令等外部数据进行存储,以进行后续计算。数据计算层根据接收到的模型和相应指令,完成对本地数据的推断和分析。数据通信层负责将节点产生的结果上传,同时接收最新的模型或指令。

联邦控制负责落实联邦管理的决策,通过将联邦管理产生的自然语言规则集转换为机器语言,对联邦数据进行调控,分离数据所有权和使用权,完成对节点的动态选择、节点状态更新以及数据的读写访问等操作。如果说联邦管理是联邦生态的决策者,那么联邦控制就是执行者,其通过将各种指令和规则代码化,建立一套面向联邦数据的控制系统。



4.联邦生态支撑技术


联邦管理与联邦控制建立了从数据联邦到服务联邦的桥梁。第3节从功能角度描述了联邦管理和联邦控制的定义,本节将从技术层面讨论其背后的技术支撑,在区块链相关技术的基础上,探索联邦模式下的合约、共识、激励以及安全机制。


4.1 基于区块链的联邦合约


区块链的智能合约被定义为一组无需中介、自我验证、自动执行合约条款的计算机交易协议,其主要强调了区块链场景下的去中心化特性。联邦合约则以联邦节点数据的隐私保护为前提条件,同时放宽了对中心节点的限制,致力于构建在无论是否有中心节点的情况下,都能高效、安全、稳定运行的协议组,以完成访问控制、非隐私数据交换、局部状态修改、全局数据更新、请求响应以及意外情况处置等功能。联邦合约落实了联邦管理的决策,借助可自动运行脚本,实现联邦控制。

4.2 基于区块链的联邦共识


区块链的共识算法定义了在去中心化的系统中使各节点就记账权归属达成一致的协议。联邦共识进一步拓宽了共识范围,面向分布式系统的所有决策,保证各节点达成一致性。在有中心的系统中,达成共识通常较为简单,只需要中心节点对边缘节点的行为进行统一协调。在去中心化的系统中,则需要额外的“选举”或投票策略来确定临时领导节点,临时领导节点负责对系统状态和数据进行更新。同时新的状态和数据被广播至其他节点,在通过多数节点验证后,即对系统的更新达成了共识。

4.3 基于区块链的联邦激励


激励机制的设计对保持联邦生态的活力具有至关重要的作用。在分布式系统中,节点往往隶属于不同的组织和机构,造成集体利益与个人利益的冲突。良好的激励机制应尽可能保证个人利益同集体利益的一致性,根据节点贡献进行相应的奖励,促进节点更积极地参与联邦生态的维护和管理,为联邦生态提供数据和算力支持。

4.4 基于区块链的联邦安全


联邦生态的安全主要关注节点数据隐私保护、节点间数据传输不受威胁、系统状态合法更新等方面。在节点数据隐私保护方面,联邦生态禁止直接对外输出节点原始数据,只传输经过处理的中间特征或结果,从而避免数据隐私泄露。同时,考虑到中间特征和结果同样存在隐私泄露风险,联邦生态安全机制还可以利用非对称加密技术,利用中心节点或临时领导节点公钥对待传输数据进行加密,从而防止信息被其他节点获取。在信息传输和系统状态更新环节,联邦生态可将区块链作为数据传输和有效性验证工具,提升系统鲁棒性,避免中心节点受到攻击,造成系统崩溃。


5.联邦生态的驱动


以人工智能为代表的智能技术的发展给各行各业带来了巨大变革,智能技术有望成为 21 世纪时代进步的新引擎。其中,数据驱动的机器学习和深度学习技术在近期不断取得重要突破,得到了研究人员和智能技术从业人员的广泛关注。面向联邦生态的学习方法旨在借助联邦节点的数据和算力资源,在保障各节点数据隐私的前提下,实现对模型和算法的训练。随着大数据的积累和计算能力的提升,有望实现从特征到知识再到智能的蜕变,进而反过来辅助联邦管理进行决策,提高联邦控制的效率,从而提供更为智能和优质的服务。相比于集中式的数据利用方法,联邦生态通过汇聚多方资源,能够获得海量数据和计算资源,在数据驱动的智能技术发展中具有独到的优势。同时,联邦生态对用户隐私的保护机制使其避免了潜在的道德和法律问题,有望获得更为长远的发展。联邦智能将单个组织的个体智能转换为面向多个组织的联邦智能,有望突破数据孤岛的局限,充分发挥数据潜力,从而更好地优化从决策到生产的各个环节,驱动整个联邦生态的发展进步。


6.联邦生态的应用场景


联邦生态有着广泛的应用场景,如工业智联网、自动驾驶行业、医疗行业和金融行业等。由于行业敏感性等多种原因,这些领域内的数据往往无法直接进行交换共享,限制了对数据的有效利用。联邦生态可以为上述场景提供一体化的安全共享环境,能够在隐私可控的前提下使数据效益最大化,助力产业的发展与进步。

(1)联邦生态在工业智联网中的应用
工业智联网需要运用新一代技术理念,对不同种类的工业实体乃至整个工业网络进行建模和管控,对工业和社会资源进行高效整合,从而实现工业实体的智能化发展。在联邦生态的框架下,可以制定不同工业实体之间的协作策略,串联决策、规划、管控、执行全过程,从而推进工业智联网的实现进程。

(2)联邦生态在自动驾驶行业的应用
自动驾驶对系统安全性与可靠性有着极高的要求,除了车辆自身的摄像头、激光雷达,加入与周围车辆、道路监控摄像头之间的交互信息将有助于驾驶决策的制定,此时可以借助联邦生态实现不同设备之间的协同合作,统筹分配不同设备的参与环节,辅助自动驾驶系统做出全面、安全、可靠的最优决策。

(3)联邦生态在医疗行业的应用
由于医疗行业的特殊性,每家医院对患者样本的掌握量有限,仅使用本地样本训练得到的图像识别模型的效果难以达到应用标准。此时,多家医疗机构可以借助联邦生态系统协同改善诊疗模型的性能。当接收到新患者时,医院可以通过联邦生态中的智能诊断模型得到来自多家医院的诊断结果,并以此作为患者医疗诊断的辅助决策,提高诊断的正确率。

(4)联邦生态在金融行业的应用
联邦生态能够被应用于金融行业中的多头借贷活动检测、个性化金融服务制定、个人信用评估等场景。以个人信用评估为例,其目的是预测个人未来的违约风险,为信用卡申请、分期消费等领域提供参考。借助联邦生态框架,可以有针对性地对个人信用评估场景进行建模,通过联邦管理生成综合了社会性因素与工程性因素的执行规划,将需要多方协作的个人信用评估问题具体为每个银行节点的调控策略、数据选择策略以及协作方式,并通过联邦控制进一步执行联邦管理的决策,最终得到综合全面的个人信用评估结果。


7.结束语


现阶段,由于各方面原因造成的数据孤岛问题限制了人工智能模型的训练与应用。与此同时,社会对于数据隐私保护愈加重视,相关监管措施逐步出台,导致数据的收集与分享变得更加困难。在明确具体的应用场景与分布式数据后,如何串联数据与服务,为特定服务提供智能化解决方案是联邦生态的首要任务。本文创新性地提出了联邦生态,并介绍了联邦生态的基本思想、框架、协议和机制,以期为联邦生态的未来研究和服务应用提供启发和借鉴。

目前,联邦生态还处于初步发展阶段,未来研究工作将围绕联邦控制调控方法与联邦管理策略展开,进一步推进联邦生态中联邦安全共享协议的制定与发布,开展联邦生态的平台建设,以期在交通、视觉计算、社会计算、智慧农业等领域开展进一步的应用。联邦生态涉及机器学习算法、分布式机器学习、密码学与安全、隐私保护数据挖掘、博弈论等众多领域,因此,需要更多的研究人员投入更多的时间和精力才能将其由理论推向实际。

作者简介 About authors

王飞跃(1961-),男,博士,中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任,中国科学院大学中国经济与社会安全研究中心主任,青岛智能产业技术研究院院长,主要研究方向为平行系统的方法与应用、社会计算、平行智能以及知识自动化。

王艳芬(1969-),女,博士,中国科学院大学常务副校长、资源与环境学院教授,中国生态学学会副理事长,中国自然资源学会副理事长,国际山地综合发展中心独立理事,主要研究方向为我国草地和湿地生态系统的结构和功能,以及其对气候变化和人类活动干扰的响应和适应。

陈薏竹(1997-),女,中国科学院自动化研究所复杂系统管理与控制国家重点实验室硕士生,主要研究方向为联邦学习。

田永林(1994-),男,中国科学技术大学与中国科学院自动化研究所联合培养博士生,主要研究方向为计算机视觉、智能交通。

齐红威(1975-),男,博士,数据堂(北京)科技股份有限公司董事长、高级工程师,主要研究方向为人工智能数据采集、处理以及联邦数据等。

王晓(1988-),女,博士,中国科学院自动化研究所复杂系统管理与控制国家重点实验室副研究员,主要研究方向为社会交通、动态网群组织、人工智能和社交网络分析。

张卫山(1970-),男,博士,中国石油大学(华东)计算机科学与技术学院教授,主要研究方向为大数据智能处理、人工智能。

张俊(1981-),男,博士,武汉大学电气与自动化学院教授,主要研究方向为智能电网中信息技术、大数据、人工智能技术的应用。

袁勇(1980-),男,博士,中国人民大学数学学院教授,主要研究方向为区块链、商务智能、计算广告学。 


微信截图_20210125181958.png





http://blog.sciencenet.cn/blog-951291-1268929.html

上一篇:[转载]《智能科学与技术学报》2020年第4期目次&摘要
下一篇:[转载]深度强化学习算法与应用研究现状综述

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-11 15:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部