|||
大数据更需要清洗
无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。在大数据时代,若不加强数据清洗,则GIGO(垃圾进,垃圾出)现象会更加严重。
对数据的清洗之后进行分析挖掘的过程就是情报“去粗取精、去伪存真、化零为整、见微知著”的过程。只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可以让人放心的、可用于支撑决策的情报。有时决策者似乎只需要一个简单的数,但是为了得到这一个数,我们需要搜集大量数据并进行有效的分析与处理。例如,《国家中长期科技发展规划纲要(2006-2020)》提到,到2020年本国人发明专利年度授权量和国际科学论文被引用数均进入世界前5位,“5”是一个简单的数,但是要获知是否进入了前5位,需要很多数据的支撑,包括时间为轴的纵向数据以及空间为轴的对比数据等。
以数据为基础既是现代科技情报工作的一个基本特征,也是情报学区别于其他一些相邻学科的鲜明特色。例如,计算机更注重算法与效率,可以用通用的测试数据做文章,即使这些数据不够真实、不够及时,也不影响测试;而情报学所构建的一些数据基础本身就是情报工作的一部分,如科技论文统计数据、专利数据、国别科技政策数据等,它们必须真实、及时,否则就没有价值。
我们对数据的统计分析已给予了足够多的关注,各种统计软件与工具、分析流程与方法琳琅满目。其实,有了好的数据之后,统计分析反而简单一些。统计往往关注数据的共性,利用数据的规律性进行处理;而数据清洗往往需要关注数据的个性,针对数据的差异性进行处理。有规律的数据便于统一处理,存在差异的数据难以统一处理,所以,从某种意义上说,数据清洗比统计分析要更难,至少更费时。中国科学技术信息研究所论文统计组每年花费大量时间用于数据清洗,从而保证数据质量,这样得出的统计分析结果才能令人信服,针对统计分析结果的说明与解读也往往更有价值。
究竟什么样的数据算是海量数据,什么样的数据算是大数据,并不是我们讨论的焦点,我们讨论的焦点是如何对现有的数据进行有效的清洗、合理的分析,使之能够满足决策服务的需求。本期的《大数据时代下的情报分析与挖掘技术研究》、《政府门户网站公众满意度调查问卷缺乏数据的处理研究》、《关联规则的改进与度量研究》等3篇论文都是涉及数据清洗与分析的论文,值得大家关注。
萝卜快了可以不洗泥,数据越大越需要清洗。
化柏林 武夷山
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 13:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社