|||
去粗取精 去伪存真(140512)
闵应骅
五一节前后,被邀回了一次湖南,五年没回去了。觉得,真是故乡的山,故乡的水,故乡的风景格外美。那树都是绿油油的,不像北京的树,好像渴得等着天老爷下雨来浇灌。家乡农村的水还是那么清澈,感觉好极了。但是,湖大校园里的车那是满满的,无所谓交通规则。因为只有交,没有通。一定要前面的车走动,自己才能动。作为千年学府,湖大校园很美,老楼留着,又整修出了一个漂亮的湖。新楼也不少,就是挤得慌。我在岳麓书院院子里看到一盘盆景,那么浅的一个盘,有30厘米高的小树下面只有两厘米的土(如下图),不知道为什么能支撑得住?
我在湖大曾兼职过6年,学生很多。他们大多已是副教授、教授、博士生导师。就这几天,集中进行了几天的学术交流。我也从他们那里学习了许多东西。谢鲲副教授告诉我,他与人合作的一篇文章被ICDCS2014录取。分布式计算系统国际会议(ICDCS)是IEEE系列国际会议,已经开了33届,今年第34届,在西班牙召开。这次投文500+篇,取了66篇,录取率为13%。我数了一下,中国人的文章取了35篇,占录取文章的53%。这就是说中国人的文章占了一多半。这怎么解释呢?是不是说中国在分布式计算系统方面中国已经世界第一了?恐怕不能这么说,但是中国的科研大有进步是真的,不过,中国追求论文数量恐怕应该算世界第一。不管怎么说,这是一个很严肃的国际会议。他们这篇文章就是研究数据分析中去粗取精、去伪存真的问题。他们拿到湖南株洲2011-2013年196个气象传感器每小时采样一次的数据,包括天气、温度、湿度、雨量等数据。这些数据当然够多的,目的无非是做天气预报、灾害预报。问题是许多点的数据可能丢失,噪声大,误差大,非去粗取精、去伪存真不可。从基本建设角度讲,建这么些点是多了,还是少了。这就是需要分析这些数据。即使在有物联网的情况下,这些问题也要研究,也许是更需要研究。
我对他们这一研究感兴趣,拿来文章粗看了一下。他们观察到,如果以各点数据为列,时间点为行,任意一段时间组成的矩阵是低秩的。说明各行、各列的数据相关性很高,缺了一些数据也无所谓。但是,关键数据不能少,借此还可以识别错误数据。其次,他们观察到增加一观察点或增加一个时刻,这个矩阵的秩最多增加或减少1,有时间稳定性,和秩的稳定性,不会突变。所以,他们提出了在线气象数据收集的矩阵填充算法,尽量节省采样传感器和采样次数。这些想法就很好。即使在物联网环境下,有大数据处理能力,也不是收集数据越多越好。没有用的数据何必浪费资源去收集和分析呢?所以,大数据技术有一个有效性的问题。不应该浪费资源,不应该做无用功。
毛泽东在《实践论》中说:“将丰富的感觉材料加以去粗取精、去伪存真、由此及彼、由表及里的改造制作工夫。” 这是他对待古今中外历史文化的原则,吸收熔铸古今中外文化,涵养内心坚定的民族之魂。这个原则很正确,在科学的数据分析中也适用。但这仅仅是一个原则,真要施行就需要许多科学研究了。譬如,在一大堆数据中,去伪存真,哪些是伪、哪些是真?用什么规则来鉴别真伪?再说去粗取精,什么数据是粗,什么数据是精?的确,有许多数据是没用的,可以去掉,有些是精华,对结论的贡献最大。可鉴别精粗,难度很大。对不同种类的数据,提出形式的方法,才能算法化。没有形式的鉴别,自己选择一些数据,你基本上可以想统计出什么结论就可以有什么结论,流于先有结论,后有数据。这就不是科学的方法,你得出的结论也就不可信。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 11:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社