|
引用本文
李荣昌, 刘涛, 郑海斌, 陈晋音, 刘振广, 纪守领. 基于最大−最小策略的纵向联邦学习隐私保护方法. 自动化学报, 2024, 50(7): 1373−1388 doi: 10.16383/j.aas.c211233
Li Rong-Chang, Liu Tao, Zheng Hai-Bin, Chen Jin-Yin, Liu Zhen-Guang, Ji Shou-Ling. Privacy preservation method for vertical federated learning based on max-min strategy. Acta Automatica Sinica, 2024, 50(7): 1373−1388 doi: 10.16383/j.aas.c211233
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211233
关键词
纵向联邦学习,属性推断攻击,隐私保护,最大−最小策略,工业互联网
摘要
纵向联邦学习(Vertical federated learning, VFL)是一种新兴的分布式机器学习技术, 在保障隐私性的前提下, 利用分散在各个机构的数据实现机器学习模型的联合训练. 纵向联邦学习被广泛应用于工业互联网、金融借贷和医疗诊断等诸多领域中, 因此保证其隐私安全性具有重要意义. 首先, 针对纵向联邦学习协议中由于参与方交换的嵌入表示造成的隐私泄漏风险, 研究由协作者发起的通用的属性推断攻击. 攻击者利用辅助数据和嵌入表示训练一个攻击模型, 然后利用训练完成的攻击模型窃取参与方的隐私属性. 实验结果表明, 纵向联邦学习在训练推理阶段产生的嵌入表示容易泄漏数据隐私. 为了应对上述隐私泄漏风险, 提出一种基于最大−最小策略的纵向联邦学习隐私保护方法(Privacy preservation method for vertical federated learning based on max-min strategy, PPVFL), 其引入梯度正则组件保证训练过程主任务的预测性能, 同时引入重构组件掩藏参与方嵌入表示中包含的隐私属性信息. 最后, 在钢板缺陷诊断工业场景的实验结果表明, 相比于没有任何防御方法的VFL, 隐私保护方法将攻击推断准确度从95%下降到55%以下, 接近于随机猜测的水平, 同时主任务预测准确率仅下降2%.
文章导读
随着深度学习在诸多领域取得优异的性能, 工业互联网中不断引入深度学习技术[1−3]赋能传统企业. 工业互联网的快速发展得益于海量的工业数据和丰富的计算资源. 然而, 随着数据隐私保护法规的颁布[4−5], 企业间难以通过直接交换私有数据的方式训练深度学习模型, 极大制约了工业互联网的快速发展. 联邦学习(Federated learning, FL)为上述问题提供了解决方案, 在保证隐私的前提下利用分散在各个机构的数据联合训练机器学习模型.
联邦学习按照机构间数据的分布差异[6], 通常可分为横向联邦学习(Horizontal federated learning, HFL)、纵向联邦学习(Vertical federated lea-rning, VFL)和联邦迁移学习. HFL适用于参与方间数据特征空间相同、样本空间不同的场景, 其中特征空间指参与方用户的属性信息, 样本空间指参与方数据中的用户成员信息. 例如, 某银行在A地区和B地区设有分行, 两地业务类似, 即具有相同的特征空间; 用户差异较大, 即具有不同的样本空间. VFL适用于参与方间的数据具有相同样本空间、不同特征空间的场景. 例如, 来自相同地区的银行和借贷机构, 银行具有该地区的经济状况, 借贷机构具有该地区的信用记录, 2个公司具有的用户类似, 即具有相同的样本空间; 2个公司的业务不同, 即具有不同的特征空间. 联邦迁移学习适用于参与方间数据集共享的样本空间和特征空间都有限的场景. 由于现实场景中来自同一个地区的不同机构间的合作日益紧密, VFL逐渐受到更多关注.
随着FL在诸多领域得到应用[7−8], 研究者们关注到FL算法本身的隐私安全性, 已有研究分别从参与方和协作方2个角度, 讨论HFL中良性参与方所面临的隐私泄漏风险. 现有研究表明, 参与方或协作方可利用HFL训练过程中传输的中间信息发动成员推断攻击[9−10]或数据重构攻击[11−12], 使得HFL中的参与方遭受隐私泄漏威胁. 现有研究针对VFL场景, 仅评估参与方作为攻击者时对良性参与方造成的隐私泄漏风险[13]. 协作方通常被假设为一个诚实可信的第三方, 但在现实场景中, 难以保证协作方是完全诚实可信的. 特别地, VFL在训练过程中的良性参与方上传的嵌入表示通常包含其关键的原始信息(包括隐私信息), 该原始信息存在泄漏的风险. VFL中的隐私信息泄漏带来极大的社会危害. 例如现实场景中, 一个银行和一个借贷机构试图联合构建一个评估用户信誉度的VFL系统, 如图1所示. 其中, 借贷机构作为协作方和主参与方提供用户的贷款数据, 银行作为从参与方提供用户的金融数据(如“用户负债”). 在训练过程中, 借贷机构一方面正常参与训练; 另一方面试图从银行窃取用户的“用户负债”数据, 从而恶意地推销高利贷服务. 因此, 研究VFL隐私保护方法显得尤为重要.
图 1 VFL隐私泄漏示例
为了评估VFL中良性参与方所面临的隐私泄漏风险, 本文提出一种由协作者发起的通用属性推断攻击. 攻击者利用良性参与方在联合训练过程中上传的嵌入表示和收集的样本隐私属性训练一个攻击模型, 并利用训练完成的攻击模型, 推断未知样本的隐私属性. 在基于全连接神经网络(Fully connected neural network, FCNN)构建的VFL框架上, 通过对实际工业场景的钢板缺陷诊断数据集上的实验结果表明, 仅当攻击者收集到参与方1% (20张)样本隐私属性数据时, 可达到对良性参与方“钢板序列”隐私属性95%的攻击推断准确度. 此外, 这种属性推断攻击可同时窃取VFL中良性参与方在训练阶段的隐私属性和测试阶段的隐私属性.
VFL研究中常见的防御方法可分为基于加密的保护方法和基于扰动的保护方法2种, 但无法有效防御本文提出的属性推断攻击. 其中, 现有基于加密技术(如同态加密和多方安全计算)构建的VFL框架[14]无法防御的主要原因是协作方在基于加密技术的VFL协议中, 可获得解密后的真实嵌入表示, 从而发动攻击. 基于扰动的保护方法主要用于防御成员推断攻击, 如差分隐私[15]通过注入随机噪声, 使得任意2个数据记录产生近似的概率, 但对主任务的预测性能损害严重, 且难以防御属性推断攻击[16].
为了同时保护参与方的隐私属性和保证主任务的预测性能, 并且降低防御的时间成本, 本文提出一种基于最大−最小策略的纵向联邦学习隐私保护(Privacy preservation method for vertical federated learning based on max-min strategy, PPV-FL)方法. 通过对本地模型实施最大化主任务的预测性能和最小化嵌入表示的隐私信息2个操作, PPVFL能够在滤除隐私属性信息的同时, 保证VFL主任务预测性能. 通过实验, 验证了本文提出的PPVFL能有效降低攻击者发动属性推断攻击的推断准确度, 并对主任务的预测准确率影响较小. 同时, 本文对PPVFL的通用性和参数敏感性进行讨论. 最后, 利用t分布式随机邻居嵌入(t-distributed stochastic neighbor embedding, t-SNE)可视化技术, 对PPVFL能有效防御属性推断攻击进行解释.
本文的主要贡献包括以下3个方面: 1)针对常用的VFL框架, 提出一种通用的属性推断攻击, 验证了VFL在训练和推理阶段存在隐私数据泄漏的风险; 2)提出一种基于最大−最小策略的纵向联邦学习隐私保护方法, 本地模型前向传播(localforward)时破坏嵌入表示和隐私属性间的映射关系, 同时引入梯度正则组件, 实现保护数据隐私与维持主任务预测性能的目标; 3)通过在3个典型的不同模态数据集的实验, 验证了属性推断攻击和PPVFL方法的有效性. 此外, 在工业互联网的钢板缺陷诊断场景中, 本文提出的隐私保护框架下, 攻击者的推断准确度从95%下降到55%以下, 接近于随机猜测水平, 同时主任务的预测准确率仅下降2%.
图 2 VFL框架
图 3 VFL场景中攻击示意图
VFL作为一种新兴的保护数据隐私的分布式学习技术, 受到学术界和工业界的广泛关注. 多数研究从参与方的角度分析VFL在实际应用场景中潜在的隐私安全问题. 在此背景下, 本文从VFL中协作方的角度, 构建一种通用的属性推断攻击方法, 评估了VFL面临的隐私泄漏风险. 为了解决VFL面临的上述威胁, 本文进一步提出基于最大−最小策略的VFL隐私保护方法. 通过对参与方的本地模型使用最大−最小化策略, PPVFL滤除了参与方嵌入表示的隐私属性信息. 同时PPVFL引入梯度正则组件, 保证训练过程主任务预测性能. 本文在3个真实数据集上进行了大量实验, 验证了PPVFL的有效性. 此外, 本文还验证了PPVFL在实际工业互联网场景中的通用性.
然而, 该方法主要适用于边缘模型为神经网络的VFL框架, 还不足以有效加固基于随机森林或逻辑回归算法搭建的VFL框架的隐私安全. 未来工作将研究更具通用性的隐私保护方法. 此外, 在实际VFL场景中, 可能存在数据缺失或由于通信间断导致的数据丢失问题, 设计具有容错机制的VFL隐私保护方法也是未来的研究方向之一.
作者简介
李荣昌
浙江工业大学信息工程学院硕士研究生. 主要研究方向为联邦学习, 图神经网络和人工智能安全. E-mail: lrcgnn@163.com
刘涛
浙江工业大学信息工程学院硕士研究生. 主要研究方向为联邦学习, 人工智能安全. E-mail: leonliu022@163.com
郑海斌
浙江工业大学网络空间安全研究院助理研究员. 分别于2017年和2022年获得浙江工业大学学士和博士学位. 主要研究方向为深度学习, 人工智能安全和公平性算法. 本文通信作者. E-mail: haibinzheng320@gmail.com
陈晋音
浙江工业大学信息工程学院教授. 分别于2004年和2009年获得浙江工业大学学士和博士学位. 主要研究方向为人工智能安全, 图数据挖掘和进化计算. E-mail: chenjinyin@zjut.edu.cn
刘振广
浙江大学网络空间安全学院研究员. 主要研究方向为数据挖掘, 区块链安全. E-mail: liuzhenguang2008@gmail.com
纪守领
浙江大学计算机科学与技术学院研究员. 分别于2013年获得佐治亚州立大学博士学位, 2015年获得佐治亚理工学院博士学位. 主要研究方向为数据驱动的安全性和隐私性, 人工智能安全性和大数据分析. E-mail: sji@zju.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 00:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社