hezhenfeng的个人博客分享 http://blog.sciencenet.cn/u/hezhenfeng 福州大学 数学与计算机学院

博文

做数据分析还是要勤快一点

已有 8308 次阅读 2010-8-17 16:15 |个人分类:未分类|系统分类:科研笔记

        现在做数据分析(或数据挖掘)的学生比较幸福:数据一般已在数据库或格式数据文件里,网络上各种算法的程序包(代表者是Matlab的工具箱)应有尽有,只要把程序包运行一下,结果就出来了。如果结果比较好(符合相关领域知识),就可以整理整理数据,写文章了。如果结果不太好,则先在预处理和后处理在做文章,实在不行,才去考虑改进算法,改进算法一般也是尽可能在别人的算法中插入一段,就OK了。

       实际上,做数据分析的人还是勤快一点好:

      (1)处理数据要勤快:如果有可能的话,自己亲自输入部分数据,至少要把数据大概看一下。数据出问题的例子实在太多了,比如今年暑假回家,天天下雨,无事可做,又分析了多年前研究过的一个数据集,做了一个简单的可视化,结果竟然发现数值66出现的概率异常地大,仔细看了一下,66应该是空值的表示(即那天由于各种原因没有数据)。呵呵,想当年,不少人(包括本人)都研究过这个数据集,竟然无人发现这个问题。

      (2)编程序要勤快:尽量自己编程序,至少算法的核心部分要自己编,对于其它相关部分也要心中有数。比如发生高斯分布时,常用代码:(sqrt(-2*log(rand()*1.0 / RAND_M))*cos(2*PI*rand()*1.0/RAND_M)) * c+ u; 结果发生的gauss随机数中出定义域的比例总是偏高(尤其是发生高维随机数时),无意中才发现这里有一个log0的bug,结果所有实验只能重做,如果在“借用”这段代码时,仔细分析一下,就不会出这个问题了。



http://blog.sciencenet.cn/blog-404447-353881.html

上一篇:"控制之下"竟也成了问题
下一篇:看耶鲁开放课程的一点感想

0

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-11-25 22:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部