|||
图片来自Sciencedaily.
近日哈弗大学的研究人员发现通过一个数据分析的工具可以找到新的数据相关性,而这些相关性或许之前并没有被人们所意识。研究论文“Detecting novel associations in large data sets”发表在Science上。作者的这种工具被称为“MINE (Maximal Information-based Nonparametric Exploration)”,他们使用MINE研究了酿酒酵母基因表达、肥胖与收入的关系、以及影响棒球运动员收入的主要因子,发现了一些有趣的相关性。如作者发现在世界的大多数国家,肥胖与收入呈现抛物线关系,而在太平洋岛屿,却呈现斜率很大的直线上升趋势,因为在这些岛屿肥胖还意味着社会地位。
共同第一作者Reshef认为他们的这种分析数据的工具可以被描述成假说的发生器(Our tool is a hypothesis generator),因为科学研究就是基于观察的假说驱动的标准范式,而如今研究人员只需要分析数据就可以提出假说,进而验证,这是极其给力的!我们知道现在的研究论文基本上都要求作者描述出研究的假设依据,简单描述性的论文已经很难发表了。
随着测序技术的发达,人类基因组数据库会越来越庞大,人们从这么庞大的数据中获得有价值的信息的难度也越来越大,作者好像很期望他们的这个MINE工具用于基因数据挖掘。除了海量的基因数据,事实上,生态学的宏观数据也在逐年积累,如果用于生态学数据的相关性分析,不知能有什么有趣的发现。
相关阅读:
Tool Detects Patterns Hidden in Vast Data Sets
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 22:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社