信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

严格讲大数据是一个超级的杂多集合:总体效率最高的做法是……

已有 1386 次阅读 2018-12-6 09:26 |个人分类:学术研究|系统分类:科研笔记| 数据, 算法, 算力

算法(操作、路径),数据(结构化、形式化),算力(芯片、电力),看似仅三个方面,其实至少还有上述括弧里枚举的多个方面。于是,人机交互的界面设计和自动化批处理即看似人工智能程序设计两个方面的设计问题也就凸显了出来,与此同时,还有一个重要方面的设计问题,这就是数据库、数据仓库和数据中心有该如何设计暨不断优化的问题。严格讲大数据是一个超级的杂多集合,怎样从中全自动地分出各式各样的特征集合或属性集合或标志集合?这是一个焦点。其实,有两个途径是可以而且容易全自动实现的做法是迅速地把各类单一集合及其分层集合自动学习并形式化理解。然后,再反过来夹击特定范围的杂多集合,进而,有针对性地学习、区分并理解相应的特征集合。这是总体效率最高的做法。-邹晓辉

附图:


附录:
    【众所周知,人工智能除了算法之外,数据和算力同样非常重要。没有数据,人工智能难以进行完备模型训练和输出准确结果。自AlphaGo之后第三次人工智能浪潮兴起,给人们带来了很多有价值的输出结果。

人们意识到原来数据可以做如此多的事,有如此多的变现场合和方式,便自然地产生了新的疑问:这些数据中也有我贡献的一份,那么数据产生的价值是不是应该分享给我一部分?或者说,我的数据是不是不应该如此轻易被拿走,在利用数据时数据隐私该如何保护?这些疑问也一定程度反映出了现在数据采集和使用机构、企业所面临的问题。

不管是人工智能,或其他数据利用方式,当前仍存在三个亟待解决的问题:

第一、不是所有的数据都在互联网平台上,大量储存在其他地方的数据流动性不够,没有充分发挥应有的价值。比如医疗数据,它不像电商数据、社交数据一样,在互联网平台就能轻易采集到,而是储存在各个医疗机构那里。有没有办法让这些数据充分流动起来,挖掘其价值,进一步促进医疗水平的提升?

第二,诸多敏感数据并不允许以普通的技术手段共享利用,需要新的隐私保护技术手段来提高数据利用率。除了刚才所说的医疗数据外,大量包含个人隐私信息的数据都不能轻易拿出来,只有进行充分隐私保护之后,大家才可能愿意把数据共享出来。

第三,当前互联网企业数据共享方面也存在问题。比如,国内社交数据腾讯最强,电商数据阿里最强,如果这些数据能够进行共享将会产生难以估量的额外价值。但很多数据持有方依然坚守着“数据孤岛”,不愿进行数据共享。其中最重要的一个原因也是隐私保护问题,共享时一旦自己的原始数据被泄露,一方面会丧失核心竞争力,另一面可能存在法律风险。

这种大环境下,隐私计算就被重视了起来。

恰恰密码学已经有了不少理论成果,可以供我们来共同探讨,解决隐私计算的问题。】



https://blog.sciencenet.cn/blog-94143-1150086.html

上一篇:自然与人工(再进一步是:社会和人文)在基础上的区别与联系
下一篇:要么学界公认期刊发表,要么大众市场用户接受
收藏 IP: 36.113.32.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-4 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部