zengjianping的个人博客分享 http://blog.sciencenet.cn/u/zengjianping

博文

大数据价值挖掘的难点和重点:非结构化数据处理

已有 6404 次阅读 2017-6-10 08:19 |系统分类:教学心得| 大数据, SQL, 结构化, 非结构化, 关系型数据库

               


      大数据分析和应用得到了各个行业的关注,人们试图从大量数据中发现蕴含的模式和规律,进而产生更多的价值,“数据”作为分析对象在这个过程中所起到的作用是决定性的。本文对结构化数据、非结构化数据、数据结构、关系型数据库、实体关系图、数据模型等我们熟悉的概念进行剖析,说明它们之间的联系和区别。指出非结构化数据处理是大数据分析技术的难点和重点,是提升大数据价值挖掘深度的宝剑,在大数据的教学、研究、学习和应用开发中,围绕非结构化数据处理应当成为核心和重点。

      数据这个概念对于每个人来说,是再熟悉不过的,我们生活在数据的世界里,在将来智能发达的时代里更是一刻也离不开数据。然而在千变万化的各种数据中,是否存在一些稳定不变的本质? 在变化中寻找不变是科学探索的一条重要思维原则。

      各种形式的数据可以归结为结构化数据、半结构化数据和非结构化数据三大种类。它们的区别在于数据的表示是否存在预先定义好的数据模型,因此什么是数据模型是深入理解大数据的关键。数据模型是一种抽象模型,用于表达数据含义的构成单元及其它们之间相互关系、数据与现实世界之间的对应关系。

      数据模型包括三种相对独立的层次上的模型。

      一是物理数据模型,表示了数据在计算机中存储的物理结构,通常是数据库中的分区、表空间、段、文件等。

      二是逻辑数据模型,表示了数据在计算机中进行计算处理的逻辑结构,通常是数据表、列、对象、符号、树等。通常所说的数据结构是在计算机中高效存取和运算数据的一种表示方法,是逻辑数据模型的组织形式,选择好一个数据结构能加快计算过程。

      三是概念数据模型,表示了数据所表达的事实,即它们与现实世界的关系,通常是实体、属性、实体关系等。有时候也称为语义数据模型,是数据在现实世界的真实表示。

      例如对于计算机来说,“图书”只是一个字符串,如何让计算机知道它所代表的现实含义,这就需要数据模型要能够表达数据与现实世界的映射关系,由此,可能要告诉计算机出版社印刷的那种东西,进一步要告诉计算机什么是“出版社”。



      在逻辑数据模型方面,对于数据库管理系统(SQL、NoSQL)来说,其实现的逻辑数据模型包括单表模型、层次模型、网络模型、关系模型等,后两者分别对应于我们非常熟悉的图数据库、关系型数据库。但是,不管是层次、网络、关系或其他类型的逻辑数据模型,都无法完全满足数据的概念定义要求。这是因为它所能表达的范围是有限的,并且偏向于DBMS所使用的实现策略。

      在概念数据模型方面,实体关系模型是广泛被接受的模型之一,用于软件工程中表示结构化数据。通常使用图形方式来表达,如图所示是一个实体关系模型例子。

       “图书”作为一种逻辑数据模型,由“书名”、“作者”、“出版社”、“出版日期”等单元构成,“作者”、“出版社”也具有各自的实体描述。这种结构化数据形式可以转化为关系型数据库中的表,如book(name, author, publisher, publish_date),存储到该表中的图书具有统一的预先设定好的模型。不管是曾剑平编著的书,还是吴军编著的书,最后都必须结构化为如下四元组的形式。

     结构化数据:

  (互联网大数据处理技术与应用,曾剑平,清华大学出版社,2017)

  (数学之美,吴军、人民邮电出版社,2014)

   

   而对于非结构化数据的表述方式,则不存在这样的结构。由于缺乏统一的结构限制,同样的含义就有不同的叙述方式,以下的文本表述就表达了同样的含义。

   非结构化数据:

  “《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学出版社于2017年出版。”

  “曾剑平编著了《互联网大数据处理技术与应用》一书,并于2017年由清华大学出版社出版。”

  “清华大学出版社于2017年出版了曾剑平编著的《互联网大数据处理技术与应用》一书。”

   等等。


   半结构化数据具有自描述的数据模型。

   半结构化数据:

   (书名:互联网大数据处理技术与应用;作者:曾剑平;出版社:清华大学出版社;出版日期:2017)

   这里的书名、作者、出版社、出版日期就是自描述标签。


      可见,结构化数据、半结构化数据、非结构化数据的最主要区别在于是否存在预先定义好的数据模型,更确切的说是概念数据模型。结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;而半结构化数据具有某种结构,但是数据本身带有结构的含义。

      非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。

      其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

   (1)Web页面信息内容提取;

   (2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);

   (3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)

   (4)文本建模(含向量空间模型、主题模型等)

   (5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

   等等。

      这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。


      《互联网大数据处理技术与应用》是国内第一本系统讲述互联网大数据处理技术的教材和专业参考书,由复旦大学计算机科学技术学院曾剑平副教授在十多年教学科研积累的基础上编写而成。其特色之一是侧重于讲述非结构化数据处理与分析,这种安排有助于读者接触到更多的大数据核心关键技术。点击原文链接查看该书目录及介绍。




https://blog.sciencenet.cn/blog-1923127-1059974.html

上一篇:一张简图:互联网大数据处理技术与应用的知识体系
下一篇:大数据技术的数学基础
收藏 IP: 180.158.64.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 01:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部