高科技与产业化杂志分享 http://blog.sciencenet.cn/u/hitech http://www.hitech.ac.cn

博文

加快推进数据资源开发

已有 2946 次阅读 2017-7-19 13:38 |系统分类:论文交流

文/朱扬勇

     

       数据是指网络空间的任何东西,是可度量的、可处理的、可观测的、并占有空间的。大数据和信息化不同,二者“不混淆、不冲突”。不混淆是指信息化和大数据是不同的,不能混为一谈,信息化是生产数据的,大数据是开发数据的,更重要的是:信息化是技术进步促进数据增长,大数据是数据增长促进技术进步;不冲突是指大数据不取代信息化,信息化不包含大数据,信息化仍然将快速发展,但大数据已经从信息化工作中独立出来了,如果说信息化对应的技术叫IT的话,那么大数据对应的技术可以叫DT。

  数据产业是新兴战略产业,有数据资源、数据技术、数据应用等三个要素。加快数据资源开发利用、促进数据产业健康快速发展对经济社会意义重大。

  数据资源

  大数据之前是信息化、信息技术、信息产业,现在的工作、学习、生活无不依赖于信息技术,不能想象如果没有银行卡如何出行、买房买地;不能想象如果没有收银机超市如何运行……。信息化是将手工做的事情转换成计算机来做,将现实的事物通过摄像头、录音笔、传感器等采集到网络空间中。信息化的结果是在网络空间中形成了很多数据,即信息化是生产数据的过程。数据被大量生产并积累就成了数据资源。

  数据资源:有含义的数据集结到一定规模后形成数据资源。“一定规模”是数据资源的要求,没有“一定规模”不能称为数据资源。当少数人、少数实体、少数工作实施信息化阶段,数据并不形成资源。现在,信息化的广度和深度都达到了相当水平,数据就成为资源。以个人数据为例,一个人的身份数据不能称为数据资源,但是一个城市所有居民的身份数据是很重要的数据资源。更大的数据资源来自于科学研究、广播电视和整个互联网等。在国民经济与社会信息化建设过程中,国家正在致力于自然人数据库、法人数据库、空间地理数据库和宏观经济数据库的建设。这些都是很重要的数据资源。

  信息化形成的数据资源非常巨大。当前,世界各国都在利用卫星、望远镜,开展太空探测、深海探测、地球勘探等,收集宇宙、大气、地球、海洋等自然数据,形成自然数据资源;也利用DNA测序获得关于生命的数据,形成生命数据资源;而国民经济与社会信息化则产生了社会发展和人类行为的数据,形成了经济社会资源。例如,在国民经济领域,有国家统计数据、证券交易所交易数据、海关数据等;在社会领域,有民政数据、交通数据、医疗保险数据、社会行为数据以及更大量的互联网行为(电子商务行为、网络游戏行为、电子邮件行为、网络社区)等;在科学研究领域,有国家建设的地球系统科学数据共享平台、国土资源科学数据共享网、中国气象科学数据共享网等。

  数据产业

  随着数据的增长,人类的能力在提高。科学研究方面,以前的研究局限于本领域的数据和实验,而今则是跨多领域的学科进行交叉研究,例如以前只能做局部的天气预报,而今天可以研究全球的气候变化;社会发展变化体现在民生上,国家管理则是基于网络空间的现代化管理发展战略,比如网络防腐败工作;军事上,军队需要像保卫国土一样保卫数据资源,而不仅仅是依靠政府信息安全部门去保护数据安全,保卫数据资源和保卫国土一样是军队的责任;医疗方面,疾病早期诊断和预防、医疗保险欺诈与滥用监测、公共卫生决策支持、医学诊断有效性评估和度量,以及不良药物事件监测等的能力都有了大幅提高。社会发展与城市管理层面,从待在家里到一路远行,无处不体现出智慧的工作。

  数据产业是网络空间数据资源开发利用所形成的产业,其产业链主要包括:从网络空间获取数据并进行整合、加工和生产,数据产品传播、流通和交易,相关的法律和其他咨询服务。数据产业有数据资源、数据技术和数据应用三个要素,具备第一产业的资源性、第二产业的加工性和第三产业的服务性,是新兴战略性产业。精准广告、互联网金融、OTO等是数据开发产生的新模式、新业态。在大数据时代,任何经济形式都需要大数据的支持,大数据在创造新产业的同时,也在促进传统产业的转型升级。

  数据产业模式是指“收集数据、分析数据、提供服务”的商业模式。早期的数据服务模式并不涉及数据分析,例如早期的GOOGLE搜索服务、SCI论文引文服务、门户网站。现在增加了“分析数据”的工作,挖掘了数据包含的价值,实现了数据资源的开发利用。“分析数据”发现的价值应用广泛,例如:分析电子商务数据可以预测经济状况、地区消费水平和消费习惯等。

  数据领域里最重要的工作将是收集、积累数据资源,使得数据资源在解决实际问题的时候“够用、可用、好用”。由于“数据引力效应”已经形成,“服务换数据”已经成为一种主流商业模式,例如,互联网为代表的“边服务边收集数据”或者“服务换数据”,数据的“引力效应”利于创造出更多更好的服务,将推动数据产业快速发展,有利于社会发展。“数据引力效应”是指:数据领域存在的“数据越多、服务越好;服务越好、数据越多”这样一种数据越来越集中的现象。“数据引力效应”正创造大量新型数据产业模式,移动互联网使得数据服务无处不在、无时不在。

  数据资源开放共享

  数据开放共享主要是指政府和公共数据资源应该开放给公众共享。起源于1990年代的政府开放数据DATA.GOV(www.data.gov),初期主要是政府信息公开,政府向公众公开各种报告、决策结果。数据公开是信息公开的进一步,即将形成报告和决策的原始数据也公开,主要内容是政府应该向公众透明。2013年6月美、英、法、德、意、加、日、俄在G8峰会上签署《开放数据宪章》(Open Data Charter),明确数据开放的原则。2015年9月国务院印发的《促进大数据发展行动纲要》明确提出数据开放共享。数据开放共享主要是指政府和公共数据资源应该开放给公众共享,是一种完全开放的模式,即允许用户完全下载整个数据集,并不关心用户如何使用数据,数据开放的技术主要集中在如何处理开放数据中可能存在的安全风险和隐私泄露。由于用户可以下载整个数据集,这对于数据拥有者来说,就意味着数据权益的丧失,这导致数据拥有者不愿意开放数据。另外,没有好的软件来支持数据开放,导致开放的数据难以使用。在数据完全开放的模式下,现行数据开放共享的技术难以保护数据权益,数据开放的技术主要集中在如何处理开放数据中可能存在的安全风险和隐私泄露,并没有充分考虑数据权益丧失。

  现行的数据资源管理技术是面向“数据封闭”,需要建立面向“数据开放”的数据建模、数据组织和数据管理等理论和技术,需要从技术上解决数据能够开放、数据开放但数据权益不丧失等问题。随着数据资源的战略性和商业价值越来越显现,数据资源的开放共享变得越来越困难。数据稀缺性不丧失的开放才是可持续性的开放,就像保护知识产权才能保护创新、才可持续。“数据自治开放”模式是指数据拥有者存储、管理数据,外部用户能够使用数据但不能复制或下载数据,即在不丧失数据权益的情况下开放数据。“数据自治开放”模式能有效解决长期困扰数据开放的数据权益丧失问题,同时也能减少资源浪费,是未来的发展趋势。

  数据资源开发的问题

  数据资源作为重要的资源获得广泛认可,各行各业都在开始尝试应用大数据。数据资源开发存在下列问题:

  一是对数据资源的特性不了解。不同于煤炭、石油等天然资源,数据资源有很多特性:数据资源不能直接观察,按物体的标准来说它是无形的;数据资源的定价目前还是一个难题,并且也很难将其计入固定资产或流动资产;数据资源拥有者可以以极低的成本大量复制并传播数据资源;数据资源不会因为使用而减少,也不会因为不用而增值。因此,不能按照对待煤炭、石油等天然资源的方式来对待数据资源,要尽早、尽快、尽量使用数据资源,而不是囤积待涨。

  二是对数据资源的用途不了解。一个部门的数据资源是本部门长期信息化工作积累起来的,信息化进入常态,数据积累也是常态。长期以来,没有重视和使用数据资源,工作仍可照常进行。因此,并不知道数据资源还可以服务于其他部门或者社会各界,更不知道可以用数据资源来做很多创新业务。

  三是没有形成可开发的数据资源。很多数据资源拥有者没有形成可开发的数据资源。另外,绝大部分数据资源被放到了备份中心,备份中心的数据资源并不能用于开发利用。因此,需要加快建设可供开发的数据资源。

  四是法律法规缺失。开发利用数据这种资源,首先需要解决的问题是数据属于谁?在数据权属不清的情况下,数据的流通交易、开发利用都存在法律风险。关于数据的权属,在法律上目前还是空白,所能够参照的只有知识产权法和物权法。由于数据资源的独特性质,这些法律用于数据显然不合适。数据非天然,情理上属于数据生产者,但有多个生产者的情形,权属问题很难界定。

  五是没有合适的技术。数据资源开发的一项核心工作是数据资源的开放共享。现行的数据开放模式和相应的技术,在保护数据权益上是有缺陷的,不能满足数据开放的需求,因为更重要的是,现行的数据开放没有考虑用户是否能够使用数据、是否具备使用数据的条件,甚至很多情况用户都看不懂数据。

  布局大数据产业

  为促进数据产业健康快速发展,政府和公共数据资源的开放共享、大力发展数据开发技术是重要的。建议:

  一是分层级建设可开发的数据资源和数据储备。建设可用的数据资源、储备数据资源、掌控数据资源,尤其要率先建设中央战略数据资源,为中央顶层设计和战略决策服务。在各省市建立各自的数据资源中心,为政府治理服务。各地可因地制宜,发展本地区的大数据资源,例如,农业大省可以建设发展农业大数据,旅游大省可以建设发展旅游大数据,金融中心更需要建设发展金融大数据等。

  二是着手谋划建设大数据试验场。大数据技术研究面临着“先有数据还是先有技术”的矛盾,即:没有大量的数据,大数据技术不能验证;而没有大数据技术,大量的数据连存放的地方都没有。解决的方式是:建立一个大数据试验场,让数据和技术交替叠加发展。大数据试验场是拥有大规模数据容量及其管理分析能力、大规模科学家在线研究、大数据推演试验、支持“双创”的重大基础设施。支撑大数据研究与技术开发、数据密集型科技与工程创新、大数据产业创新、大数据人才培养。

  作者单位:复旦大学



https://blog.sciencenet.cn/blog-594908-1067128.html

上一篇:大数据开启智能时代——访中国科学院院士鄂维南
下一篇:虚实之间的“区块链”
收藏 IP: 159.226.100.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 22:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部