博文

怎样更好地解读脑功能成像研究结果精选

已有 7868 次阅读 2017-5-14 11:27 |个人分类:科学评论|系统分类:观点评述| 大数据, 数据挖掘, 脑成像, 磁共振, 开放共享

自从最初被发明，脑功能磁共振成像(fMRI)已经走过了二十多年，其间不仅论文不断涌现，实验设计不断翻新和改进，技术进步也日新月异。然后就出现了一个重要的问题。那就是：在试图综述一个领域研究进展时，总会发现不同实验室的结果存在矛盾。经常是A说这个脑区参与某功能，B则说它不参与。

生物学研究固然结果差异很大，不同实验室所找来的被试群也有个体差异，再加上种族、教育、文化等差别，都让这个问题更加扑朔迷离。但对于fMRI而言，还有一个更加重要的问题，长期被人们忽略了。现在就让我们来分析一下。

熟悉统计学的朋友们都知道，在分析包含多个变量的问题时，对于样本数量和变量个数之间，有个保持安全的比例关系，通常是1:20。换句话说，每增加一个变量，就要相应增加20个样本。否则，就可能出现对数据的过度开发，导致得出不稳定的统计学结果。

不幸的是，对于fMRI研究而言，它的分析对象——大脑中的像素点——是非常多的，至少也要有那么几千个。如果考虑到功能连接，那变量数就更会飞快地增加。但是，能够用来分析的被试却总是有限的。普通实验室也就搞那么几十个被试。大规模数据采集，通常也只有几百个样本。无论如何，这个数字都远远低于有效分析所要求的1:20的比例。

有趣的是，由于fMRI结果呈现的直观性，人们往往忽略了它背后的统计学过程。所以，不乏某些发表在顶级杂志上的论文，其实只有几例被试脑成像。例如那个著名的扫视觉皮层就知道我们在看什么的NS论文，其实只扫了三位作者本人！

何况，经典统计学是看重统计假设的。可是fMRI研究中，基本上就没有办法事先确定假设。所以，它能不能按照有假设的方式来统计，这还都是个统计学难题。

然而，现代数据分析领域中，也不乏这样类似的问题。我们把它叫做：数据挖掘。

既然是挖掘，那就是事先没有假设，谁都不知道在数据中能看到什么，只有开着不同的挖掘机上来碰运气。万一自己开的是辆蓝翔，那就捡到宝了。

只是，既然是挖掘，是碰运气的事儿，那就是说，不同人开着不同的挖掘机，能挖到的东西是不同的。因此，这样的挖掘过程，只有发现，而不会有结论。比如，我开着东芝挖掘机在南山上转了一圈，没有找到黄金；但我不能得出结论说，南山上没有黄金。我只能说我的东芝挖掘机未能挖到黄金。明天你开着蓝翔来南山，没准儿就挖到黄金了。但那你也不能就说南山上遍地是黄金。因为那或许是我上次去挖的时候不小心掉在那边的样品。

所以，数据挖掘，应该保持开放，只谈发现，不做结论。

但不幸的是，全世界开着各种各样自制的或者买来的挖掘机的研究者们，都没有遵循挖掘工作者守则。他们不仅挖，还贴标签、做结论。完全无视挖掘工作的基本行规。

其结果，就是每座矿山上都贴了来自不同挖掘工的无数标签，每个标签上写的东西都互相矛盾。

这其实也不要紧，因为如果来挖的人多了，总会有个大数定律，从众多标签中，找到这个矿山的真实面目。

然而，更不幸的是，每座矿山，实际上只有一个挖掘工能够挖。但他却把这个标签贴遍了整个矿区。其他挖掘工也在矿区中找个矿洞就挖，然后也把他自己的标签贴遍整个矿区。

这样，就让比较不同挖掘结果的工作变得更加难以实行。

其实，最好的办法，就是把矿山开放，让所有感兴趣的挖掘工，都能开着不同的挖掘机，来同一个矿山挖掘。这样就能迅速地确定整座矿山到底有没有金子。

不幸的是，目前发表的所有fMRI论文，很少同时发布原本采集的成像数据。这样从本质上，就相当于你在一个矿区中打了个矿洞，开着自己的挖掘机进去转了一圈，然后就公布了有关整个矿区的结论。由于不同的数据挖掘方法，得到的结论几乎肯定是不同的，所以那个结论，应该说“本人开着蓝翔挖掘机，发现矿洞中有/无黄金”之类。但作者们肯定不会这么自限，他一定会说“我发现这个脑区与某某功能有关/无关”。

所以，你就看出来这个领域的情况有多么麻烦。

最好的解决方案，就是今后所有的作者在发表论文的同时，都能够不仅说明所用的挖掘方法，而且把全部数据都同时发表出来。这样，或许就有一个比较心明眼亮的人，用同样的挖掘方法，就能找到不同的结果；或许有些心灵手巧的人，想出了不同的挖掘方法，同样找到不同的结果。这样，每位作者辛辛苦苦采集来的数据，就能够物尽其用；而众多心明眼亮或心灵手巧的人，也能够人尽其才。

今天世界上，反复扫脑子为同一个问题采集数据，几乎已经是科研经费、科学家生命、被试生命和读者生命的多重巨大浪费。如果每个杂志，譬如Science，在发表某fMRI研究论文的同时，也把数据放在网站上，并允许所有爱好数据挖掘的作者们去挖掘和重新分析数据，并在网站上发表自己的分析结果，那样，大约有更多的神经科学、心理学和社会科学的问题就容易更快地水落石出了。各国政府可以省许多科研经费，科学家们也可以省好多时间去自己采集数据，被试们不用冒着潜在的风险去反复接受高场强的磁共振扫描，读者们也能更快地明白一个主题的答案究竟是什么了。

这不是很美好的未来么？

转载本文请联系原作者获取授权，同时请注明本文来自罗非科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2369-1054862.html

上一篇：也说韩春雨该怎么办
下一篇：该发声，还是该缄默？关于“不立文字”——禅的行囊（之二）

收藏 IP: 111.197.104.*| 热度|

罗非的个人博客分享 http://blog.sciencenet.cn/u/罗非

博文

怎样更好地解读脑功能成像研究结果精选

当前推荐数：7 推荐人：曹俊兴 周健 彭真明 张成岗 wangbin6087 wqhwqh333 guhanxian

该博文允许注册用户评论请点击登录评论 (4 个评论)

罗非

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

罗非的个人博客分享 http://blog.sciencenet.cn/u/罗非

博文

怎样更好地解读脑功能成像研究结果 精选

当前推荐数：7 推荐人： 曹俊兴 周健 彭真明 张成岗 wangbin6087 wqhwqh333 guhanxian

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

罗非

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

怎样更好地解读脑功能成像研究结果精选

当前推荐数：7 推荐人：曹俊兴周健彭真明张成岗 wangbin6087 wqhwqh333 guhanxian

该博文允许注册用户评论请点击登录评论 (4 个评论)