verazhbj的个人博客分享 http://blog.sciencenet.cn/u/verazhbj

博文

非结构化数据之痛

已有 6378 次阅读 2012-11-7 22:24 |个人分类:数据|系统分类:科研笔记| 非结构化数据

2007年,当我第一次向SAS的高级产品经理询问:一个组织中的非结构化数据应该怎么管理的时候,他认为这是an interesting question。并且一直跟我保持联系,希望能够找到实际的应用场景。可是,由于多种原因,我未能对这一问题进行更加深入的跟踪和研究。

转眼5年过去了,当我今天上午参加了IBM关于非结构数据管理的网络会议以后,我发现,这个市场开始进入成熟期了。

5年前,银行、电信、保险、政府等信息化的主流行业,都在忙于将分散的、小型的信息系统进行整合、集中,ERP、KM等系统还大行其道。电信的BOSS系统刚刚进入实施期。象IBM这样的信息行业巨头的主要利润增长点都还在信息管理系统的建设上。

2008年-2009年,当我参加了几次信息资源整合、信息分析培训之后,我发现在IBM有一群人在关注信息系统中的内容如何建设、管理上。但是,在IBM的主流产品线上,SOA正如火如荼。大家还在关注结构化数据的管理问题,对于非结构化数据,仅仅有一个非常小的产品,提到了文本数据挖掘。BI等厂商也都在探讨在结构化数据中多维多面的钻取有价值的信息。

今年,大数据的概念一经提出,徐子沛的《大数据》一书的出版,以及巴拉巴拉的《爆发》,都让我领略了国外对多源信息,包括大量的非结构化数据的整合、挖掘和利用已经逐渐被各界研究者和实践者提上了议事日程。IBM更是将概念直接转化成了具体的产品和工具,为用户提供了非结构化数据的捕获、识别、存储和分析挖掘的解决方案。

大数据来了,一直以来以管理图书、论文这样的非结构化数据为专长的情报所、图书馆们,还从来没有为图情以外的机构在非结构化数据管理方面进行过服务,在IBM这样的产业巨头面前,我们还有多大的自主技术、工具、方法的发展空间?



https://blog.sciencenet.cn/blog-457750-630284.html

上一篇:父亲住院三部曲之一:入院
下一篇:什么样的科研项目产出算资产?
收藏 IP: 1.203.34.*| 热度|

2 李伟钢 黄晓磊

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 15:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部