IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于区块链的联邦学习: 模型、方法与应用

已有 320 次阅读 2024-7-25 16:45 |系统分类:博客资讯

引用本文

 

李程, 袁勇, 郑志勇, 杨东, 王飞跃. 基于区块链的联邦学习: 模型、方法与应用. 自动化学报, 2024, 50(6): 10591085 doi: 10.16383/j.aas.c230336

Li Cheng, Yuan Yong, Zheng Zhi-Yong, Yang Dong, Wang Fei-Yue. Blockchain-enabled federated learning: Models, methods and applications. Acta Automatica Sinica, 2024, 50(6): 10591085 doi: 10.16383/j.aas.c230336

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230336

关键词

 

区块链,联邦学习,智能合约,机器学习,隐私保护 

 

摘要

 

近年来, 人类社会快速步入大数据时代, 数据安全与隐私保护已成为发展大数据生态及相关数字经济的关键问题. 联邦学习(Federated learning)作为分布式机器学习的一种新范式, 致力于在保护数据隐私的同时从分布式本地数据集中训练全局模型, 因而获得了广泛和深入的研究. 然而, 联邦学习体系面临的中心化架构、激励机制设计和系统安全等技术挑战仍有待进一步研究, 而区块链被认为是应对这些挑战的有效解决方案, 并已成功应用于联邦学习的许多研究和实践场景. 在系统性地梳理现阶段区块链与联邦学习集成研究成果的基础上, 提出基于区块链的联邦学习(Blockchain-enabled federated learning, BeFL)概念模型, 阐述其中的若干关键技术、研究问题与当前研究进展, 探讨该领域的应用场景以及有待进一步研究的关键问题, 并讨论未来发展的潜在方向, 致力于为构建去中心化和安全可信的数据生态基础设施、促进数字经济与相关产业的发展提供有益的参考与借鉴.

 

文章导读

 

随着信息与智能技术的高速发展, 互联网与物联网设备产生的数据呈现出爆炸式增长态势. 国际数据公司(International Data Corporation, IDC)的全球数据规模预测显示, 2025, 全球数据可达175泽字节(Zetta byte, ZB), 其中90 ZB来自物联网设备, 数据交互用户将从2018年的50亿增至60亿. 数据已经成为一种新的、更为重要和有效的生产要素. 例如, 以深度学习为代表的新一代人工智能技术通常需要大量数据来训练理想模型, 以期提高智能系统的性能与效率

 

然而, 数据在发挥重要作用的同时, 其采集与使用也将关系到个人安全与国家安全, 因而国内外对于数据隐私保护的法律法规也日趋严格: 2018, 欧盟发布《通用数据保护条例》 (General data protection regulation, GDPR); 2021, 中国相继发布《数据安全法》和《个人信息保护法》. 这些法律法规虽然有助于保护数据安全和隐私, 但同时也在一定程度上限制了数据流通和价值创造, 迫使数据由于安全隐私或地理位置等因素而散落在互不连通的数据孤岛中. 因此, 在保障隐私和安全的前提下, 如何促进数据流通与共享、增进机构间的协同与合作效率, 是目前学术界和产业界普遍关注的问题

 

联邦学习(Federated learning)是近年来兴起的分布式机器学习新范式, 可以实现各个机构的私有数据不出本地, 在不披露底层原始数据或其加密形态数据的前提下, 通过迭代式交换和更新加密参数的方式共建一个虚拟的全局模型. 由于数据本身不移动, 有效降低了隐私泄露和数据合规风险, 因此联邦学习近年来获得了广泛和深入的研究关注[1−3]. 在理论建构上, 联邦学习的研究可以追溯到1996, Cheung[4]首次在分布式数据库中实现了关联规则挖掘, 为联邦学习奠定了理论和方法基础. 2016, 谷歌公司正式提出联邦学习技术, 并用于实现输入法优化[5]. 2017, Tan[6]提出远域迁移学习(Distant domain transfer learning)理论体系, 并将迁移学习与联邦学习相结合, 2020年提出了联邦迁移学习技术框架, 以解决数据孤岛问题[7]. 

 

近年来, 联邦学习在产业实践中已经发展和衍生出3种服务形态, 即横向联邦学习(样本维度) 、纵向联邦学习(特征维度) 和联邦迁移学习[8−9]. 在应用架构上, 横向联邦学习分为客户端中心协调器架构和对等网络架构, 纵向联邦学习通常为两方参与且假设存在双方信任的第三方充当协调者来协同双方进行隐私计算. 联邦迁移学习则是在面向隐私保护的分布式机器学习架构上, 结合传统的迁移学习方法实现知识迁移. 在应用场景上, 针对参与方的数据分布特点, 横向联邦学习适用于用户特征部分重叠较多、用户样本部分重叠较少的应用场景; 纵向联邦适用于用户特征部分重叠少、用户样本部分重叠多的应用场景; 联邦迁移学习适用于用户特征和用户样本都重叠较少的应用场景

 

现阶段, 联邦学习仍面临诸多挑战[10−11]. 1)在基础架构层面, 主流的联邦学习的底层网络拓扑结构依赖于中心化服务器来处理各节点上传的参数, 一旦服务器发生单点故障, 则整个系统将陷于瘫痪. 同时, 随着参与训练的节点增多, 中心化服务器的网络负载也将相应增大, 降低系统联合训练的效率; 另一方面, 虽然对等联邦学习网络架构采用点对点(Peer to peer, P2P) 网络使得各参与节点可以相互传递加密梯度或模型参数, 而无需经过中央服务器来进行聚合, 从而有效缓解了单点故障这一挑战, 然而整个系统却缺乏统一的调度机制来协调多个参与方进行联邦计算. 由此可见, 传统的联邦学习网络拓扑结构制约了整个系统的健壮性和效率. 2)在据安全层面, 虽然联邦学习采用加密算法可以保护数据在传输过程中不被窃取或篡改, 但是无法防止敌手通过分析模型参数或输出来推断数据的信息. 例如, 敌手可以采取成员推理攻击和特征推理攻击, 通过观察模型参数的变化, 推断出参与者的训练数据是否包含某些特定的样本或属性. 或者, 敌手可以采取重构攻击和模型反演攻击, 通过构造特殊的输入, 观察模型的输出, 反向推导出训练数据的内容; 同时, 联邦学习主要聚焦于数据计算过程, 相比之下关于输入数据筛选以及输出数据或参数检查的有效手段还不多见[12−13], 因此在数据安全和完整性方面尚不完善. 3)激励机制层面, 参与联合训练的用户需要贡献其计算资源和私有数据, 来训练各方共享的全局模型; 实际应用中, 各用户的计算资源和数据质量往往存在较大差异, 因而具有优势资源和高质量数据的参与方为维护其行业优势, 通常缺乏参与联邦学习的动力. 因此, 联邦学习需要有效的激励机制来激发用户参与的积极性. 4)节点信任层面, 联邦学习

 

区块链技术的去中心化基础架构、用户身份安全认证机制、自动化激励分配机制和区块数据的不可篡改性等技术优点有望为应对联邦学习面临的挑战提供解决方案. 区块链系统的基本工作流程是: 分布式的区块链节点通过P2P网络共同参与预先设定的共识过程来完成交易或事务数据的验证, 并以链式区块结构封装这些数据, 从而在共识节点间维护相同的数据账本. 共识过程通常是各节点根据预定义的共识机制(例如, 基于算力或权益的竞争记账、基于特定顺序的轮流记账等) 获得记账权, 获胜节点将当前时间段产生的所有数据打包, 封装到一个新的区块中, 并按照时间顺序链接到主链上. 同时, 区块链系统可能会发行一定数量的代币以奖励获胜节点, 并激励其他节点继续参与数据共识过程[14]. 

 

作为一种分布式计算新范式, 区块链可以从如下4个方面改进联邦学习. 1)区块链网络采用完全去中心化(或弱中心化) P2P网络拓扑结构, 为联邦学习的分布式模型聚合提供了合适的架构, 提高了计算弹性、系统完整性和容错能力; 2)区块链系统的身份认证和权限管理等机制可以提高联邦学习系统的安全性; 3)区块链可以通过自定义智能合约来自动化地管理不同设备集的多回合联邦学习任务, 同时还可以通过加密货币激励更多用户参与共建生态系统; 4)在底层分布式共识协议的支持下, 区块链可确保联邦学习过程的公平性和公正性, 帮助参与训练的用户节点之间建立信任

 

因此, 近年来, 将区块链技术与联邦学习相结合, 已经成为保障数据安全和隐私、构建数据要素流通新型基础设施的新趋势. 二者互利互补, 在激励联邦学习各参与方进行协同数据训练而又同时确保数据隐私与安全方面, 将形成更为完备的解决方案[15−17]. 

 

基于区块链的联邦学习(Blockchain-enabled federated learning, BeFL)架构的潜在优势包含以下3个方面. 1)合作模式相似: 区块链是基于分布式系统的、多方协同的网络架构, 而联邦学习需要多个分布式实体的共同参与来协同训练模型, 因此区块链可以作为联邦学习的基础拓扑架构. 2)二者都具有可信的特征: 联邦学习的可信体现在其数据合作过程可以保护隐私不被泄露, 区块链的可信则体现在记账过程中可以采用共识机制和数据验证机制, 使得数据不可篡改且不可抵赖. 3)区块链和联邦学习的应用目的是相互补充的: 联邦学习旨在创造价值”, 利用各个参与方数据的互补性, 通过联合训练来提升模型效果. 而区块链旨在转移价值”, 真实记录参与各方的贡献, 并进行奖励. 因此, 区块链与联邦学习的融合将成为发展趋势, 也是本文的主要研究动机[18−19]. 

 

目前, 基于区块链的联邦学习研究尚处于起步阶段, 现有研究大多是结合边缘计算、物联网和车联网等典型场景研究区块链+联邦学习的应用模式, 缺乏全面总结该领域本身的架构模型、理论体系和技术进展的综述文章[20−28]. 近年来主要国内外综述工作与本文的差异总结如表1所示. 总体来说, 本文在对该领域全面调研的基础上, 从利用区块链改进联邦学习的角度出发, 首次提出区块链与联邦学习集成架构的概念模型, 全面归纳和总结该领域的关键问题、研究方法与当前进展、应用领域以及未来研究方向, 可望为该领域的发展提供借鉴

 

本文结构安排如下: 1节给出基于区块链的联邦学习架构的概念模型, 概述其基本工作流程; 2节分别详细阐述该概念模型中的基础架构、共识机制、经济激励、智能合约以及隐私安全五个层面的主要研究问题和当前的进展; 3节介绍基于区块链的联邦学习架构的应用领域; 4节讨论现有的技术瓶颈和解决方案; 5节概述未来发展方向; 6节对本文内容进行总结

 1  基于区块链的联邦学习概念模型

 2  BeFL 架构的基本运作流程

 3  联邦学习架构与BeFL架构的网络拓扑结构

 

区块链与联邦学习的集成创新是新一代信息技术发展的重要趋势之一. 本文提出了BeFL的概念模型, 阐述了BeFL的基本工作流程, 并从基础架构、共识机制、经济激励、智能合约、隐私保护和应用领域6个维度论述了该领域的关键研究问题和现有研究进展. 本文同时探讨了BeFL的开放研究问题和应用场景. 需要指出的是, 区块链与联邦学习的结合还处于起步阶段, 面临着崭新的发展机遇和严峻的研究挑战, 需要结合更多的研究领域和应用场景来加以探讨. 期待本文可为未来的研究提供有益的参考与借鉴

 

作者简介

 

李程

中国人民大学数学学院、交叉科学研究院博士研究生. 主要研究方向为区块链, 联邦学习与机制设计. E-mail: cheng.li@ruc.edu.cn

 

袁勇

博士, 中国人民大学数学学院教授. 主要研究方向为区块链, 计算经济学与分布式人工智能. 本文通信作者. E-mail: yong.yuan@ruc.edu.cn

 

郑志勇

中国人民大学数学学院教授. 主要研究方向为解析数论与代数数论. 在指数和与特征和的几何理论以及函数域的解析理论等领域上有突破性贡献. E-mail: zhengzy@ruc.edu.cn

 

杨东

中国人民大学交叉科学研究院教授. 主要研究方向为金融科技, 区块链, 数字货币. E-mail: yangdongbeijing@163.com

 

王飞跃

中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员. 主要研究方向为智能系统和复杂系统的建模, 分析与控制. E-mail: feiyue.wang@ia.ac.cn



https://blog.sciencenet.cn/blog-3291369-1443737.html

上一篇:《自动化学报》2023年50卷6期目录分享
下一篇:面向算力网络的智慧调度综述
收藏 IP: 222.131.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-25 22:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部