闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

关于大数据技术的再思考(130314) 精选

已有 8736 次阅读 2013-3-14 07:44 |个人分类:计算机|系统分类:科研笔记| 大数据

关于大数据技术的再思考(130314)

闵应骅

 

     我猜想,今年大数据方面的基金申请少不了。本人上一篇博文“大数据到底要研究什么?(130308)谈的都是比较宏观的东西。说明大数据技术归根到底是分布存储、并行处理的问题。对于比较小的基金课题申请,其实只需要就一个小问题深入下去就可以了。本篇企图写得稍微具体一点,但是,限于本人的能力,仍然很粗略。不过,每一句话实现起来都不那么容易,与大家一起探讨而已。

 

     面对一个请求和全世界的大数据,首先我们假定数据组织在文件中,这些文件可以分类。这不是科学意义上的分类,任何文件必须属于一类,但不一定是唯一的一类。当然,如果能属于尽可能少的类,当然更好。我们可以让每一个节点有一个索引。但这个索引必须是全局的,当然最好是全世界的,不过不可能。这个索引还必须每时每刻保持同步。当一个请求来到就在自己节点上找索引,从而找到所有数据源。而且应该根据历史经验尽快地找到那些有用的数据源。本节点还应该能对大数据源进行尽可能深入地分析。这就牵涉到数据挖掘、机器学习、自然语言理解、模式识别等技术。当然数据的提取、转换、加载是必不可少的。通用索引的构成很关键,在一个大公司内可能还可行,在全世界来订统一的标准我想基本不可能。不过,现在已经看到某些事实上的通用格式。因为索引的分类必须有一个统一的关键字或者编号及其主要而简明的信息。这些索引头应该是可以并行计算的。综合同类关键字就可能得到该大数据请求的结果。结果的计算决定于需要计算的函数。有的函数是可分的,就是说各个节点可以分别计算自己的数据,把结果传出去,综合起来就可以计算出最后结果。当然,许多函数是不可分的,并行计算就麻烦多了。其实,Hadoop, HDFS, SQL, DBMS, MapReduce等等许多系统都是在做这些事情。但都不是很理想的。还有许多问题需要研究。


        数据的多样性和差异性是个很头痛的问题。许多数据来源于Web,或者是过去遗留的文件和系统、科学研究的数据库、传感器来的数据、流数据库、社会网络等等,多种形式,不同结构,互相矛盾的很多。要丢弃不相关的数据恨难。要处理其中的一类数据可能比较容易,而要处理所有可能的数据就极其困难。数据源来的大数据是非结构性的,多维的,乱七八糟,而且由于目的的不同,格式化的方法也可能不同。

 

        由于大数据的规模变化很大,好的可扩展性成为一个大问题。在这方面,云计算框架也许能派上用场。大数据分析要求有足够的灵活性来更新和改变数据的存储。同时要有容错性,即当影响分布式数据或计算结构发生故障时,能够有容错措施的应对。而且要有自管理能力,譬如自重构。

   另一个问题是与现有数据库系统的兼容性,譬如RDBMSNoSQL已经在用,你可以在它们基础上优化,但不可能推倒重来,新的大数据系统得与它们兼容。在下一代互联网的研究中也有类似的问题。

   如果把大数据作为一个重大研究方向来安排,那恐怕还是要从根本问题着手。小打小闹可能解决不了问题。本人就是不赞成先盖大楼、成立机构,然后再做产品、找市场。遗憾的是过去都是走这路子。



https://blog.sciencenet.cn/blog-290937-670155.html

上一篇:大数据到底要研究什么?(130308)
下一篇:波音787的事故(130323)
收藏 IP: 218.11.179.*| 热度|

21 许培扬 李伟钢 杨宁 罗春元 刘文礼 米春桥 唐常杰 赵美娣 曹聪 黄富强 孙学军 徐晓 郭鑫武 王启云 黄岚 化柏林 赵凤光 刘钢 ahmen dulizhi95 twlkyao

该博文允许注册用户评论 请点击登录 评论 (23 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 00:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部