|
“大数据”,大家耳熟能详!各行各业纷纷建立各种基于物联网的大数据平台,以彰显自己的实力和潮流。但通过一些系统分析,大数据建设的基本要素不太具备,因此,我们要重新审视“大数据”这三个字。
文字只是一个思想的表达方式。“大数据”口号主要是从人们在物联网、人工智能背景下对多信息智能处理功能赞誉和追求角度提出的。有了大数据,我们对世界的描述更加“拟合”,同时通过大数据,我们用人工智能可以得到大脑所不能实现的结论和总结。但这种“拟合”和“结论”是以“可信数据”为基础的,没有“可信数据”,我们的“拟合”和“结论”将是短期无法验证的错误。因此,一味的、随意的建立的大数据平台,只是实现了传感器电信号的采集,而忽略了电信号的真实,因此这些大数据平台是没有意义的。在这种背景下,我们需要及时提出新的口号“可信数据”来纠正那种只追求“大”不追求“信”的现象。
大数据概念其实不够严禁,大家思考一下什么是“大”?看一个高山形貌,我们用显微镜来观察,虽然获取了足量的数据,但对形貌不但起不了好作用,反而会起到坏作用。“大”是相对应的,是应该根据研究目的适当调整尺度的“大”,而不是一味的“大”,所以单纯强调“大”很容易误导信息化建设公司,造成不必要的资金浪费。
“大”不好把握,但可信度是永远无法避开且必须坚持的。
可信数据credible,有四个要素组成:真实True、准确Correct、够用Just和安全Safe。可信数据是数据获取的核心要求,是人类科学与文明的重要基础。“可信数据”建设,是我们在盲目大数据建设背景下,重新回归科研本质的重要提醒。
可信数据中的真实性是指,数据应来源于被观察对象,即使有“模拟机”,也应该在仿真的基础上进行真实数据的获取和验证。很多科研成果中的仿真模拟,即使论述了其理论依据的可靠性,但那只是一种描述,不能作为可信数据。
可信数据的准确性是指,数据来源于被观察对象,其数据的产生应该是准确的。不能有偏移量,更不能超出误差范围。现实中,我们很多数据是从传感器中获取的,这个过程有多个误差系统的卷积,但我们应该逐渐逼近,更不能用了一个单纯的、价格贵的传感器就觉得数据准确无误。校准、信息感知理论研究是准确性的两翼。
可信数据的够用性是指,根据观察目的,采用适当的数据内容,不能用偶发数据和少数据,也不能用超维度数据。够用性有时候是相对的。
可信数据的安全性是指,数据链路安全,数据价值安全以及数据存储安全。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 05:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社