|
数据挖掘中的隐私保护主要关注两个方面:其一,像身份、姓名、地址和爱好等敏感的原始数据的处理,避免个人隐私信息的泄露。其二,能通过数据挖掘工具得到的敏感知识也应该被排除。隐私保护数据挖掘的主要目标是使用某种方法对原始数据进行处理,使得私有数据和知识在挖掘之后仍然是私有的。
目前,数据挖掘中的隐私保护方法研究主要有:在挖掘算法中建立隐私约束规则、在应用挖掘算法之前对挖掘数据集应用随机化方法、对隐私建立度量评估、取代本样本真实数据、对记录进行交换等,同时还有在分布式环境下的数据挖掘(数据元组水平分布和属性垂直分布) 隐私保护以及通过对原始数据的混乱或扭曲进行隐私保护、敏感数据隐藏算法、规则混乱、取样法等方面[4 ] 。这些研究的焦点主要集中在关联规
则隐私保护和分类隐私保护,研究的场景可以归结为两种:个人隐私保护和分布式数据挖掘中的隐私保护。
现有的一些隐私保护技术大体上可基于下面因素对它们分类:数据分布、隐私保护技术、数据或规则更改方法、数据挖掘算法。
隐私保护算法分类
数据分布方式 |
隐私保护 技术 |
数据更改 方法 |
数据挖掘 算法 |
集中式 |
启发式 |
滑动窗口法关联规则 |
关联规则 |
随机修改部分值为1 的数据为0 |
关联规则 |
||
添加随机数 |
关联规则 |
||
重建式 |
添加随机偏移量 |
分类 |
|
机修改部分数据 |
关联规则 |
||
贝努里概率模型 |
关联规则 |
||
水平分布 |
加密式 |
加密、添加随机数 |
关联规则 |
垂直分布 |
加密式 |
加随、添加随机数 |
关联规则 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 08:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社