罗非的个人博客分享 http://blog.sciencenet.cn/u/罗非

博文

怎样更好地解读脑功能成像研究结果 精选

已有 7356 次阅读 2017-5-14 11:27 |个人分类:科学评论|系统分类:观点评述| 大数据, 数据挖掘, 脑成像, 磁共振, 开放共享

   自从最初被发明,脑功能磁共振成像(fMRI)已经走过了二十多年,其间不仅论文不断涌现,实验设计不断翻新和改进,技术进步也日新月异。然后就出现了一个重要的问题。那就是:在试图综述一个领域研究进展时,总会发现不同实验室的结果存在矛盾。经常是A说这个脑区参与某功能,B则说它不参与。

   生物学研究固然结果差异很大,不同实验室所找来的被试群也有个体差异,再加上种族、教育、文化等差别,都让这个问题更加扑朔迷离。但对于fMRI而言,还有一个更加重要的问题,长期被人们忽略了。现在就让我们来分析一下。

   熟悉统计学的朋友们都知道,在分析包含多个变量的问题时,对于样本数量和变量个数之间,有个保持安全的比例关系,通常是1:20。换句话说,每增加一个变量,就要相应增加20个样本。否则,就可能出现对数据的过度开发,导致得出不稳定的统计学结果。

   不幸的是,对于fMRI研究而言,它的分析对象——大脑中的像素点——是非常多的,至少也要有那么几千个。如果考虑到功能连接,那变量数就更会飞快地增加。但是,能够用来分析的被试却总是有限的。普通实验室也就搞那么几十个被试。大规模数据采集,通常也只有几百个样本。无论如何,这个数字都远远低于有效分析所要求的1:20的比例。

   有趣的是,由于fMRI结果呈现的直观性,人们往往忽略了它背后的统计学过程。所以,不乏某些发表在顶级杂志上的论文,其实只有几例被试脑成像。例如那个著名的扫视觉皮层就知道我们在看什么的NS论文,其实只扫了三位作者本人!

   何况,经典统计学是看重统计假设的。可是fMRI研究中,基本上就没有办法事先确定假设。所以,它能不能按照有假设的方式来统计,这还都是个统计学难题。

   然而,现代数据分析领域中,也不乏这样类似的问题。我们把它叫做:数据挖掘。

   既然是挖掘,那就是事先没有假设,谁都不知道在数据中能看到什么,只有开着不同的挖掘机上来碰运气。万一自己开的是辆蓝翔,那就捡到宝了。

   只是,既然是挖掘,是碰运气的事儿,那就是说,不同人开着不同的挖掘机,能挖到的东西是不同的。因此,这样的挖掘过程,只有发现,而不会有结论。比如,我开着东芝挖掘机在南山上转了一圈,没有找到黄金;但我不能得出结论说,南山上没有黄金。我只能说我的东芝挖掘机未能挖到黄金。明天你开着蓝翔来南山,没准儿就挖到黄金了。但那你也不能就说南山上遍地是黄金。因为那或许是我上次去挖的时候不小心掉在那边的样品。

   所以,数据挖掘,应该保持开放,只谈发现,不做结论。

   但不幸的是,全世界开着各种各样自制的或者买来的挖掘机的研究者们,都没有遵循挖掘工作者守则。他们不仅挖,还贴标签、做结论。完全无视挖掘工作的基本行规。

   其结果,就是每座矿山上都贴了来自不同挖掘工的无数标签,每个标签上写的东西都互相矛盾。

   这其实也不要紧,因为如果来挖的人多了,总会有个大数定律,从众多标签中,找到这个矿山的真实面目。

   然而,更不幸的是,每座矿山,实际上只有一个挖掘工能够挖。但他却把这个标签贴遍了整个矿区。其他挖掘工也在矿区中找个矿洞就挖,然后也把他自己的标签贴遍整个矿区。

   这样,就让比较不同挖掘结果的工作变得更加难以实行。

   其实,最好的办法,就是把矿山开放,让所有感兴趣的挖掘工,都能开着不同的挖掘机,来同一个矿山挖掘。这样就能迅速地确定整座矿山到底有没有金子。

   不幸的是,目前发表的所有fMRI论文,很少同时发布原本采集的成像数据。这样从本质上,就相当于你在一个矿区中打了个矿洞,开着自己的挖掘机进去转了一圈,然后就公布了有关整个矿区的结论。由于不同的数据挖掘方法,得到的结论几乎肯定是不同的,所以那个结论,应该说“本人开着蓝翔挖掘机,发现矿洞中有/无黄金”之类。但作者们肯定不会这么自限,他一定会说“我发现这个脑区与某某功能有关/无关”。

   所以,你就看出来这个领域的情况有多么麻烦。

   最好的解决方案,就是今后所有的作者在发表论文的同时,都能够不仅说明所用的挖掘方法,而且把全部数据都同时发表出来。这样,或许就有一个比较心明眼亮的人,用同样的挖掘方法,就能找到不同的结果;或许有些心灵手巧的人,想出了不同的挖掘方法,同样找到不同的结果。这样,每位作者辛辛苦苦采集来的数据,就能够物尽其用;而众多心明眼亮或心灵手巧的人,也能够人尽其才。

   今天世界上,反复扫脑子为同一个问题采集数据,几乎已经是科研经费、科学家生命、被试生命和读者生命的多重巨大浪费。如果每个杂志,譬如Science,在发表某fMRI研究论文的同时,也把数据放在网站上,并允许所有爱好数据挖掘的作者们去挖掘和重新分析数据,并在网站上发表自己的分析结果,那样,大约有更多的神经科学、心理学和社会科学的问题就容易更快地水落石出了。各国政府可以省许多科研经费,科学家们也可以省好多时间去自己采集数据,被试们不用冒着潜在的风险去反复接受高场强的磁共振扫描,读者们也能更快地明白一个主题的答案究竟是什么了。

   这不是很美好的未来么?




https://blog.sciencenet.cn/blog-2369-1054862.html

上一篇:也说韩春雨该怎么办
下一篇:该发声,还是该缄默?关于“不立文字”——禅的行囊(之二)
收藏 IP: 111.197.104.*| 热度|

7 曹俊兴 周健 彭真明 张成岗 wangbin6087 wqhwqh333 guhanxian

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 12:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部