bhwangustc的个人博客分享 http://blog.sciencenet.cn/u/bhwangustc

博文

特邀述评: 个人数据记录即将到来

已有 2687 次阅读 2019-6-19 21:31 |个人分类:最新科技动态|系统分类:科研笔记

 特邀述评 

 个人数据记录即将到来 


 周涛       汪秉宏 


个人数据记录(personal data records, PDR),即人们通过各种传感技术,以不同的细节程度对日常生活进行数字化的记录,加上学习和工作经历、法律记录、财务记录、医疗健康记录等,构建成一个单一的统一分类帐。随着人工智能技术迅猛发展,未来将通过个人数据记录分析自动做出决策,通过个体购物记录分析实现精准营销,通过对个体健康记录分析提前发现潜在的疾病,通过测量分析既定人群的群体行为制定交通规划、环境治理等政策,等等。个人数据纪录将在产生海量应用并成为重要的个人资产。

个人数据记录产生、应用主要依托新技术的日益成熟。包括越来越廉价的数据存储技术,成本更降低、性能更好、感知更敏锐的传感器技术,越来越强大、稳定的移动网络环境,以及强大的数据分析技术。

当前个人数据记录尚处在起步阶段,未来面临技术和社会两方面的挑战。

(一)技术挑战

技术方面主要包括:数据采集技术尚不成熟,数据采集平台尚未做到互通,数据质量有待进一步提升。以起步较早的医疗数据为例,健康管理机构、政府卫生机构等单位数据库未相互融通,数据孤岛严重,数据采集、存储到数据分析、运用的技术有待提升。

目前已经有一些元数据处理的先进技术,可以基于大量积累的学习样本,利用人工智能算法,自动化解析来自不同信息系统的各种表格,高效实现数据的融合和标准化。例如成都智信电子技术有限公司陈曦团队提出了多场景下的元数据交换标准,结合NLP自然语言解析技术解决元数据的翻译问题,可以高并发高通量从若干信息系统中采集数据,并同时实现标准化和数据融合。该技术已经在数百家医疗机构中得到应用,实现了含个人数据记录在内的医疗数据的标准化和跨机构融合。

(二)社会挑战

随着元数据治理和数据中台技术的成熟,问题将从技术方面转化为社会方面,主要涉及个人隐私问题。其中特别敏感的问题包括数据是谁的、谁可以获取数据、数据存储在哪里、可以将数据保存多久、隐私如何分级分权限管理等等。隐私设计成为个人数据记录方案的核心部分,在所有权与访问控制方面需要提出可行的解决方案。

目前针对金融支付、医疗健康、个人通信等关键性的隐私数据,希望能够进行预脱敏处理,使得数据进入主数据库之前就进行匿名化,有多名相关安全人员共同掌握关键密钥的信息(每人一部分),同时有一套ID系统,可以通过计算判断两个匿名ID是否是同一个对象。这样操作人员自身无法看到个人最关键的隐私信息,但是又不影响办理业务或者系统内甚至跨系统的分析计算。最近一个重要的挑战是,即便数据已经匿名化,通过数据特征结合一些外界知识,还是可以实现反匿名化。例如麻省理工媒体实验室针对150万人持续15个月的时空数据研究显示,只要知道一个人在4个时间点(精确到小时)的位置,就可以以超过95%的精度在数据库中定位这个人的数据;进一步针对110万3个月的信用卡记录的分析显示,只要知道一个人4个时空数据,就可以以超过90%的精度在数据库中定位这个人的数据。这些研究显示,目前的匿名化技术并不能完全抵抗数据科学家的反匿名化攻击。

执笔人:

    电子科技大学计算机科学与工程学院

    汪秉宏  中国科学技术大学近代物理系

 





https://blog.sciencenet.cn/blog-4673-1185880.html

上一篇:第五届全国统计物理与复杂系统学术会议 第二轮通知
下一篇:新加坡南洋理工大学举办复杂性科学亚洲论坛
收藏 IP: 183.160.93.*| 热度|

4 崔锦华 周涛 曾春华 高湘昀

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 20:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部