崇尚科学, 也有点迷信分享 http://blog.sciencenet.cn/u/gaojianguo

博文

Science: 海量数据中找到相关性

已有 10561 次阅读 2012-1-9 15:10 |个人分类:生活点滴4|系统分类:论文交流| 科学, 相关性, 海量数据

图片来自Sciencedaily.

   

近日哈弗大学的研究人员发现通过一个数据分析的工具可以找到新的数据相关性,而这些相关性或许之前并没有被人们所意识。研究论文Detecting novel associations in large data sets发表在Science上。作者的这种工具被称为“MINE (Maximal Information-based Nonparametric Exploration)”他们使用MINE研究了酿酒酵母基因表达、肥胖与收入的关系、以及影响棒球运动员收入的主要因子,发现了一些有趣的相关性。如作者发现在世界的大多数国家,肥胖与收入呈现抛物线关系,而在太平洋岛屿,却呈现斜率很大的直线上升趋势,因为在这些岛屿肥胖还意味着社会地位。

   

共同第一作者Reshef认为他们的这种分析数据的工具可以被描述成假说的发生器(Our tool is a hypothesis generator),因为科学研究就是基于观察的假说驱动的标准范式,而如今研究人员只需要分析数据就可以提出假说,进而验证,这是极其给力的!我们知道现在的研究论文基本上都要求作者描述出研究的假设依据,简单描述性的论文已经很难发表了。

 

随着测序技术的发达,人类基因组数据库会越来越庞大,人们从这么庞大的数据中获得有价值的信息的难度也越来越大,作者好像很期望他们的这个MINE工具用于基因数据挖掘。除了海量的基因数据,事实上,生态学的宏观数据也在逐年积累,如果用于生态学数据的相关性分析,不知能有什么有趣的发现。

  

相关阅读:

Tool Detects Patterns Hidden in Vast Data Sets

Detecting novel associations in large data sets.pdf

 



https://blog.sciencenet.cn/blog-260340-527355.html

上一篇:光声和光热光谱开启植物学研究新篇章
下一篇:越来越不想回家过年
收藏 IP: 123.157.19.*| 热度|

17 许培扬 黄富强 丁甜 赵斌 李力强 孙广东 郑宏 李冰 黄晓磊 杨正瓴 郭桅 李伟钢 陈阿鹏 高莉 王涛 zhangling dulizhi95

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 01:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部