博文

数据发布中的隐私保护精选

已有 5233 次阅读 2021-1-18 11:28 |系统分类:科研笔记

领导让我把研究内容，以通俗的大家能看懂的方式写出来，先写了一部分，后面的慢慢写：
总的来说，是做数据发布中的隐私保护。如果数据不需要面向非授权方或公众发布，只在授权用户之间分享，是不需要考虑隐私保护的问题的，只需要做加解密，授权用户可以解密得到原文，非授权用户不能解密只能得到杂乱无章的密文。这样处理的数据，类似于“非黑即白”。但是在大数据环境下，数据既要向公众开放使其尽量得到使用，又要不泄露数据产生者的隐私，用传统的加解密是不够的，对这样的处理我们称之为隐私化处理或隐私计算。需要去除掉数据的某些属性使其不泄露隐私，又要保留部分属性使其可用。
比如，我要在不知道一个个老师年终奖的前提下，能算出来年终奖的和，或者平均值，并将其作为公共资源发布。这也就是我们所做的数据聚合data aggregation，聚合者（假设为不可信的）在不知道一个个数据的前提下，能得到数据的和。
但是发布平均数据是有问题的，因为平均数据抹杀了方差，一个人拿了20万，一个人拿了2万，平均后每人11万，这显然降低了发布数据的客观性和数据的价值。因此，我们用Unlinkability（去关联性）做到保持数据原始性的隐私化处理，也就是说，发布后的数据仍然是20万，2万,…,而非总和或平均值，但是都不知道20万是谁的，2万是谁的,这个方法也被称为N-source anonymity。
以上的数据隐私化处理，是以数据处理者（包括产生数据的终端、协助传输数据的边缘结点，以及数据中心）为中心来做的，但是也大家通常理解的有所不同，很多理解的数据处理者为中心是数据中心把收据收齐后，进行处理然后发布，这样的过程是不行的，因为数据中心会知道原始的数据，我们的做法是数据在离开用户之前就要处理，除了自己谁也不能拿到原始数据，但是数据所有者和数据中心协作对数据进行隐私化处理，然后发布共享出去，至于数据消费者是不是好用就不管了。
可是，在数据发布数据共享成为一个重要的趋势之时，仅仅以数据处理者为中心的模式，显然不能满足需要，而需要站在数据消费者的角度来对数据做处理。当然，数据千差万别，数据消费者的要求也是各不相同，因此，现在很难有统一的模式来设定，我们选取的是电力数据的窃电检测为例子。以往的窃电检测研究，首先需要对数据做标注，哪些是偷电的哪些是正常的，然后训练一个窃电检测的模型，模型训练完成后，把每家每户的数据导入这个检测器，检测谁家可能有偷电行为。但是这个检测器是可以知道一家一户的原始用电数据，也就是假设检测器是可信任的。能不能不让检测器知道一家一户的数据，同时又能检测出是否有窃电行为呢？我们的做法类似于现在的核酸检测，10个人一组检测，为什么10个人一组？当然相比一人一测效率要高，为什么不100人一组进行检测，因为人太多可能就把感染特征给掩盖了。我们的做法有三个：一是用聚合（比如把50家的用电数据的和送到检测器，如果发现有窃电特征，再一个个查，如果没有窃电特征，就比原来的效率高的多，同时保护了电力用户的隐私，因为检测器不知道一家一户的数据），第二就是加噪，第三是用上面的Unlinkability。
上面所说的这些数据隐私化处理的方法，所针对的数据，都是没有具体含义的数值，对数据处理者来说，处理的是你家的1000度电，还是你的1000块钱，是完全一样的。但是有另外一种数据，与上面是不同的，我们选的是轨迹数据，主要特点其是动态的，而且是有含义的。比如，某个坐标点是个水塘，那么人就不可能走在这个位置。

具体来说一下我们做的事情。比如用百度导航或骑行共享单车，行程结束后就生成了一段轨迹并上传到百度或共享单车的中心，平台当然会把这些数据当作资源来利用。但是对于你来说，肯定不希望自己的出行动态被他人知道。国外主流的方法是真轨迹生成后、上传前，生成若干条假轨迹，真假轨迹一起上传，平台不知道哪个是真的，哪个是假的，但是他们的统计特征是一样的，用来做数据分析是可以的。我们首先做了一个检测器，用来检测之前的假轨迹生成算法是否靠谱，结果发现80%多的假轨迹生成算法是不行的。现在我们用生成对抗网络做了一个可以抵抗机器学习攻击的更好的假轨迹生成算法，目前看来实验效果还不错。举例来说，比如要做以假乱真的假币，左手拿画笔用来画假币是生成器，右手是验钞机是检测器；最初左手画的，右手一下就发现是假的，左手就分析右手是根据什么特征发现是假的，左手在下一次画的时候就修正这个特征；然后再送到右手的检测器检测，如果还能发现，再根据是什么特征发现的，左手再继续修改，…,直到左手画出来的，右手检测不出来了，这时候，右手的检测器就看以前缺少了什么特征，对右手的检测器进行升级，以便能检测出左手新画出的特征，…,直到最后，右手能不能检测左手画的东西，只能凭丢硬币瞎猜来判断，这时候，左右手就实现了平衡，也就是达到了以假乱真的地步。

转载本文请联系原作者获取授权，同时请注明本文来自刘忆宁科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3464286-1267758.html

上一篇：项目申请书，写什么？
下一篇：车联网路径规划中的隐私保护

收藏 IP: 117.140.169.*| 热度|

当前推荐数：5 推荐人：陆仲绩 黄永义 黄仁勇 姚伟 孙颉

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘忆宁

扫一扫，分享此博文

lyn7311的个人博客分享 http://blog.sciencenet.cn/u/lyn7311

博文

数据发布中的隐私保护精选

当前推荐数：5 推荐人：陆仲绩 黄永义 黄仁勇 姚伟 孙颉

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘忆宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

lyn7311的个人博客分享 http://blog.sciencenet.cn/u/lyn7311

博文

数据发布中的隐私保护 精选

当前推荐数：5 推荐人： 陆仲绩 黄永义 黄仁勇 姚伟 孙颉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘忆宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

数据发布中的隐私保护精选

当前推荐数：5 推荐人：陆仲绩黄永义黄仁勇姚伟孙颉

该博文允许注册用户评论请点击登录评论 (0 个评论)