||
朝读晨思:网络大数据现状与展望
阅读时间:2018年8月26日7:11
阅读地点:太阳公元
信息来源:手机知网
作者信息:
1、王元卓,男,1978年生,博士,副研究员,中国计算机学会(CCF)高级会员,主要研究方向想想为社会计算、网络行为分析、信息安全等。
2、靳小龙,男,1976年生,博士,主要研究方向为社会计算、网络性能建模与分析、多智能体系统等。
3、程学旗,男,1971年生,博士,研究员,主要研究领域为网络科学、网络与西悉尼安全以及互联网搜寻与服务。
内容框架:
1 引言
1.1 研究与发展现状
1.2 网络大数据研究的意义
2 网络大数据带来的挑战
2.1 网络大数据带来的挑战
2.2 网络大数据的不确定
2.3 网络大数据的涌现性
3 网络空间感知与数据表示
3.1 网络大数据的感知与获取
3.2 网络大数据的质量评估与采样
3.3 网络大数据的清洗与提炼
3.4 网络大数据的融合表示
4 网络大数据储存与管理体系
4.1 分布式数据存储
4.2 数据高效索引
4.3 数据世系管理
5 网络大数据挖掘和社会计算
5.1 基于内容信息的数据挖掘
5.2 基于结构信息的社会计算
6 网络数据平台系统与应用
6.1 网络大数据平台引擎建设
6.2 网络大数据下的高端数据分析
6.3 网络大数据的应用
7 研究展望
8 总结
内容提要:
1、大数据(Big Data)时代产生的背景。
互联网、物联网、云计算,三网融合等IT与通信技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,因而信息社会已经进入了大数据时代。大数据的涌现不仅改变着人们的生活和工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变。
2、什么是大数据?
大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
IBM将大数据的特点总结为:大量化(Volume)、多样化(Variety)和快速化(Velocity)。
3、什么是网络大数据?
网络打法数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据,简称网络数据。
大量化:网络空间中数据的体量不断扩大,数据集合的规模已经从GB、TB到了PB,而网络大数据甚至以EB和ZB(10的21次方)等单位来计数。IDC的研究报告称,未来十年全球大数据将增加10倍以迎合50倍的大数据增长。(2011年数据)
多样化:网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。在现代互联网应用中,呈现出非结构化数据的大幅度增长的特点,至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上,这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用。网络大数据往往呈现出突发涌现等非线性状态演变现象,因此难以对其变化进行有效评估和预测。
快速化:网络大数据常常以数据流的形式动态、快速地产生,具有很强地时效性,用户只有把握好对数据流地掌控才能充分利用这些数据。
4、如何感知和表示网络大数据?
网络大数据的感知与获取:按照网络空间中数据的蕴藏深度,整个网络空间可以划分为Surface Web 和Deep Web(或者Hidden Web)。Surface Web是指Web中通过超链接可被传统搜索引擎爬取到的静态页面,而Deep Web则是由Web中可在线访问的数据库组成。也就是说Deep Web的数据影藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富,同时规模大、实时动态变化、异构型、分布性以及访问方式特殊等特点。需要经历数据获取、数据抽取和数据整个三个环节组成的集成过程。
网络大数据的质量评估和采样:对网络中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程,传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程。针对Web数据库采样,HIDDEN-DB-SAM-PLER是第一项工作,它给出了对范围属性和分类属性的处理方法,而对查询接口中设计的必填的可任意取值的关键词属性未作处理。文章引用了基于图模型的增量式Web数据库采样方法WDB-Sampler.
网络大数据的清洗与提炼:如何有效的衡量数据的质量?文章引用了四个衡量数据质量的指标,一致性、正确性、完整性和最小行,此外还提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。数据的清洗建立在数据质量标准上,为了得到高质量的数据,清洗和提炼过程必须满足的条件包括:检测并去除数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其它数据源;应该和数据转化相结合;要有响应的描述语言来指定数据转化和清洗操作,所有这些操作应该在一个统一的框架下完成。工业界常用工具ETL tool。
网络大数据的融合表示:对文本信息进行表示和建模的目的是让计算机额能够正确理解人类的语言,能够分析和表达出其中的语义信息,文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程。其中代表性工作包括相良间表示VSM、隐语义索引LSI和概率话题模型。
5、如何存储和管理大数据?
分布式数据存储:Google公司提出的GFS、MapReduce、BigTable等技术是分布式数据处理技术的具体实现,是Google搜索引擎系统三大核心技术。此后,Apache软件基金会推出了开放源码Hadoop和HBase系统,实现了MapReduce编程模型、分布式文件系统和分布式列簇数据库。Hadoop系统在Yahoo!、IBM、百度、Facebook等公司得到了大量应用和快速发展。
数据高效索引:目前主流查询索引技术是以Google公司的BigTable为代表的列簇式NoSQL数据库。
数据世系管理:数据世系(Data Provenance)包含了不同数据源间的数据演化过程和相同数据源内部数据的演化过程。数据世系一般有两类基本方法,非注解的方法和基于注解的方法。前者采用模式映射方式使用数据处理函数和其相对应的反向函数,但在更复杂的例子中可能并不存在集合之间的可逆函数,必须使用注解描述世系,事实上,基于注解的方法应用范围远远高于非注解的方法。
6、如何发现知识?
基于内容信息的数据挖掘:语言是社会媒体最重要的表现形式,文本是社区媒体中用户表达信息的最终要的方式,基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。
基于结构信息的社会计算:社会网络是以社会媒体中的用户为节点,用户间的关系为连边而构建的网络,它既是用户间社会关系的反映,也是用户之间进行信息交互的载体,具有关系的异质性、结构的多尺度行以及网络的动态演化性3方面特性。社会网络中个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区(为避免混淆建议称为虚拟社区)。社区结构是社会网络所普遍具有的结构特征,社会结构的存在对于网络的高效搜索、网络演化、信息扩散等具有重要意义。针对社区结构的研究可分为社区发现、社区结构演化等方面。社区发现旨在识别网络固有的社区结构,按照节点间的边联关系把节点划分为若干节点组,使得节点内部连边相对稠密,不同节点之间的连边相对稀疏。社区演化是网络自身结构与在其上频繁发生的交互过程相互作用的结果。社区演化分析主要研究社区随时间变化的情况,并分析导致这些变化的机制和原因,包括社区的形成、生长、缩减、合并、分裂和小王等。在动态演化过程网络建模研究方面,Barabasi和Albert提出著名的BA网络生成模型,建立了网络微观机制和宏观拓扑结构特征的关联规律。
7、如何系统化管理网络大数据?
为了更好的识别和满足个人和企业对数据分析的需求,需要构建各类不同的网络大数据。文章主要从数据平台建设、基于数据平台的高端数据分析以及网络大数据平台的应用三个角度总结了相关的内容。
网络大数据平台引擎建设:构建网络大数据平台,将不同渠道、不同来源、不同结构的数据进行有机地整合,根据数据类型的不同,网络大数据平台可以分为不同的类型,比如本体数据平台、企业日常事务数据平台、流数据平台、电子商务数据平台等。比如Google公司的Freebase、微软公司的Probase、国内著名的中文信息结构库-知网(Hownet)等。在商用数据平台方面,IBM公司的Infosphere大数据分析平台、天睿公司的Teradata统一数据环境以及由国内天猫、阿里云、万网联合推出的国内首个电商云工作平台聚石塔是3个典型的数据平台。
网络大数据分析与处理:一个优秀的综合大数据处理平台不但可以为企业的决策和个人的生活提供服务,甚至还可以为国家政策的制定提供支持。首先,依托大数据平台,国家可以分析各实体和产业之间的关联关系,从而了解行业发展的趋势,找到影响产业发展的关键性因素,统筹规划资金、人才、技术的良性流动与优化配置。其次,大数据平台可以为企业提供巨大的商业价值,企业分析人员可以分析多种多样的内容,比如,分析顾客偏好及顾客群体,对群体进行细分并量体裁衣般地采取独特地行动;分析具有代表性地客户群体,采取有针对性的营销策略,进行病毒式营销和模式推广;运用大数据模拟实境,发掘新的需求和提高投入的回报率,进行商业模式、产品和服务的创新等。再次,大数据平台还可以为个人的日常生活带来诸多便利,建立在大数据平台下的互联网产业,将深加工的信息和数据主动推送给目标用户,便于用户结合自身喜好选择感兴趣的模式、产品和搭配方式。此外,用户还可以从大数据平台中获取更有价值的知识,通过本体知识平台,用户可以分析知识的来源、演化过程、分析知识间的因果关系、知识本身的歧义性和模糊性,更好地理解和关联知识。
网络大数据的应用:网络大数据平台在舆情监控、模式和关键字搜索、数据工程、情报分析、市场营销、医药卫生等领域具有重要应用。需要很多面向程序员与数据科学家的工具(如Karmasphere和Datameer),使得程序员将数据而非业务逻辑作为程序的主要实体,编写出更简短的程序,更清晰地表达对数据所做的处理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 01:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社