bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]新文速递 | 盒装数据:一种基于数据盒的数据产品形态

已有 599 次阅读 2022-4-2 11:27 |个人分类:《大数据》论文|系统分类:论文交流|文章来源:转载

 盒装数据:一种基于数据盒的数据产品形态



主题词


数据产品;盒装数据;产品形态;数据市场



近年来,国内数据交易机构探索通过数据交易方式实现大数据流通的机制和可行路径,但在未能明确数据产品形态的情况下,数据的计量计价机制难以形成,数据交易面临难以开展数据交易业务的困境,亟需设计一个可计量的标准数据产品形态。复旦大学的朱扬勇教授团队在《大数据》预出版论文“盒装数据:一种基于数据盒的数据产品形态”,基于数据盒模型,探索设计了一种数据产品的基础标准形态——盒装数据。一个盒装数据产品包括盒内数据、盒外包装两部分。盒装数据旨在为数据要素市场提供一个可计量计价的标准数据产品形态。




题目:盒装数据:一种基于数据盒的数据产品形态

作者:叶雅珍,朱扬勇

单位:复旦大学计算机科学技术学院,上海市数据科学重点实验室

引用格式:叶雅珍, 朱扬勇. 盒装数据: 一种基于数据盒的数据产品形态[J]. 大数据, 2022, 8(3). doi:10.11959/j.issn.2096-0271.2022030

YE Y Z, ZHU Y Y, et al. BoxedData: a data product form based on databox[J]. Big Data Research, 2022, 8(3)doi:10.11959/j.issn.2096-0271.2022030






01

数据产品面临哪些问题?


作为一类新型产品,数据产品与其他产品一样,要想实现在数据市场中有效交易和流通,就需要能对其开展可靠地计量,而数据产品计量要有可用可见的数据产品形态。

1)数据产品的计量问题①随着时间的推移,所积累的数据类别、形式越来越多样,复杂度越来越高,对由多种数据组成、类型多样、规模庞大的大数据集进行可靠计量挑战巨大。②另外,数据的信息属性使得数据产品的价值因人而异、存在相对性,这也给数据产品计价带来很大的技术挑战。

2)不同类别的数据难以有统一的标准,这对设计统一的数据产品形态造成了极大困难。①数据产品形式统一困难。数据产品形式可以是由单一类别数据组成的形式,亦可是由多种不同类别的数据构成的形式。如何对这些不同类型的数据进行统一管理是一个难题。②数据产品规模统一困难。数据产品的数据类别形式多样且复杂,使得数据产品规模难以有固定大小的基本量。使用多大规模作为数据产品的衡量标准也是一个极具挑战的难题。


02

什么是盒装数据?


一个盒装数据产品包括盒内数据、盒外包装两部分。 

1)盒内数据是指“时间+空间+内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种数据类型。①内容维度,是指数据集中每个数据对象的内容,即数据对象有哪些属性。如图1所示,内容维度有开盘价、收盘价、最高价、最低价。②时间维度,是指每个数据对象的时间覆盖范围,即数据对象在不同时间上的值。如图1所示,时间维度为每个交易日③空间维度,是指符合数据产品描述的数据对象的空间覆盖范围,即满足数据产品描述的数据对象全体。如图1所示,空间维度为所有在时间维度上在某证券交易所挂牌的股票。对于多类型的数据产品,可以用数据盒的组合形式来表示,即将多个数据盒装入一个大的数据盒中,形成复合型盒装数据产品。


image.png

图1 “某证券交易所2020年挂牌股票的行情数据集”盒装数据产品

2)盒外包装包括产品登记证书,以及产品说明书、质量证书、合规证书等内容。①盒装数据产品登记证书是拥有者对相关数据产品权属的声明,是对盒内数据的概述性介绍,由专门的数据产品登记主管部门审核发放。只有登记后的盒装数据产品才具有合法性,才被允许在数据市场上进行流通和交易,并受法律保护。盒装数据产品登记证书主要包含产品名称、产品登记号、数据盒标牌等内容,以及产品说明书、质量证书、合规证书等附件(表1)。②产品说明书包括数据产品内容说明、生产方式/著作方式说明(被加工数据来源的合法性证明)和使用说明等。③盒装数据的质量证书就是盒装数据中的数据集达到相应质量标准和要求的证明性文件,是其开展交易流通的重要凭证。质量证书的相关内容可以作为判断盒装数据价值高低的依据。④盒内数据必须合法合规,即符合国家相关法律规定。盒装数据的合规证书主要用于承诺盒内数据符合《数据安全法》《网络安全法》《个人信息保护法》等国家有关法律要求。


表1 盒装数据产品登记证书

image.png


03

盒装数据如何计量?


参照图书的做法,设计一个标准化的盒装数据产品的基础规模和内容。盒装数据的最小规模设定为1 GB,内容应至少包括图像、图形、音频、视频、结构化数据、文本等两种以上数据类型,这兼顾了市场需求和监管需求。与“达到49页的规模才能构成一本图书”类似,“达到1 GB的数据规模才能构成一个盒装数据”也是一个认定的规模数值,不是一个科学的界定,具体的标准规模还有待于未来实践总结和完善。


更多技术细节请阅读原文:
http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2022030




联系我们:

Tel:010-81055448

       010-81055490

       010-81055534

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/



大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。



https://blog.sciencenet.cn/blog-3472670-1332150.html

上一篇:[转载]开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践
下一篇:[转载]好文推荐 | 从数据的属性看数据资产
收藏 IP: 124.202.175.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 07:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部