editage的个人博客分享 http://blog.sciencenet.cn/u/editage

博文

既然数据是论文的根基,研究者该如何规避统计错误

已有 2621 次阅读 2023-4-4 17:20 |个人分类:投稿的门道|系统分类:科研笔记

统计的本质是种工具,用来确定变量间的关系、评估研究问题效度。说得再细点,生物统计学主要用来解决生物医学中的问题,它包含统计、概率、数学、计算等多个元素。把生物统计运用到研究中,可以测试新药、寻找病因、估算患者的寿命、统计死亡率和发病率等。

 

尽管统计是生物医学研究中的主要工具之一,但它一直或有意或无意地被人滥用,已经到了见怪不怪的程度。事实上,越来越多人表示统计错误是造成拒稿的主要原因之一。本文先后探究了生物医学研究中滥用统计数据的原因和解决办法。下面我们先来了解一下造成统计错误的原因。 

 

造成统计错误的原因

一、数据呈现不清:通常论文中会提及统计方法、分析数据。不过在呈现数据时很容易出现表述上的灰色地带,让读者对研究缺乏全面的了解,归根结底是因为很多论文的统计假设都没讲清。

 

在一项样本为医学院学生、教职工的横向调查中,有 53.87% 的人认为统计学很难,52.9% 的人说不清 p 值是什么,36.45% 的人对标准差的定义有误,50.97% 的人无法正确统计样本大小。这些数据说明研究人员能正确分析数据还不够,还要会正确使用、呈现数据。

 

二、重理论、轻数据:同行评审通常会对临床研究的数据统计进行严格筛查,但基础科学就另当别论了。基础科学涵盖生物化学、行为学、动物模型、细胞培养等多个领域,这种跨学科性质让统计分析更棘手。

通常研究人员会在实验结束后才开始着手数据分析。这种事后分析带来的真知灼见通常都比较有限。

 

三、采集数据前规划不到位:规划好每个关键步骤要做的统计工作非常重要。比如说,确定样本大小时,老鼠的数量可能会对研究结果产生重大影响。由于样本的体重、身体质量等多个变量都可能影响实验结果,最好根据不同变量进行样本容量计算,然后选择最大的可行样本进行实验。

 

理想情况下,研究人员应在数据采集之前确定暴露变量和结果之间的关系,这能有效避免误报。研究人员还应该提前定好主要结果变量、 确认是否使用 A、B 对照组、设置相关组(测试 A 在患有焦虑症和抑郁症的样本身上的变量效应)。

 

四、数据采集和统计分析中出现偏差:同样的,研究人员在设计实验时也要注意对照组(条件)、随机性、盲法实验、可重复性。随机的大容量样本能避免偏差和误导。比如说,假如有人想测试药物 A 对动物体重、心率、身体质量的影响,通常会有研究人员把它切分成三个单独的实验。


但这种做法容易产生偏差。相反,当对照组和实验组样本数够大,且采取随机抽样时,用一个实验就可以监测心率、体重、身体质量三种变量。事后分析法缺少事前合理的因果论证,它不是为了验证某个特定的假设,而是反过来通过多项分析试图找出某种潜在关系。这种情况下,就很容易出现在数据中硬找关联的“钓鱼”研究。所以,在说明试验方法和原理时,确保统计部分遵循相关标准,比如国际医学期刊编辑委员会 (International Committee of Medical Journal Editors, ICMJE) 提供的指南。

 

统计错误对发表流程的影响

要想得到准确的研究结果,就得正确处理数据。而统计的准确性对发表也非常重要。一旦期刊在文章中发现统计错误,作者可能会面临大修或被拒稿的决定。很可惜,研究中的统计错误不算罕见。以下是研究中最常见的几种统计错误:

1.    研究设计错误。比如没随机抽样对照组样本、选择不合适的对照组。

2.    数据分析错误。比如缺少配对数据、不给出相关数据而直接得出 p 值、没确认线性关系的情况下直接用回归分析法。

3.    数据呈现错误。比如该用标准差用了标准误差、用饼图表示连续变量、没对多重比较进行调整。

4.    数据说明/解释错误。比如把相关和因果划等号、做砸的试验硬说是好实验。

 

如果统计错误只是由于笔误,编辑、修改一下稿件就能解决问题。但如果是数据分析、呈现和结果讨论中存在技术问题,文章就很可能要大改。而当实验设计出了问题,除了把试验重做一遍没有别的补救办法,这种情况下期刊极有可能会选择拒稿。

 

如何解决滥用数据问题

在生物医学的前沿领域,数据统计扮演着非常重要的角色。然而,要想研究出新锐科技,研究人员必须有意识地在各个环节避免滥用数据,不管是数据的收集、分析,还是呈现。

 

研究人员应该了解数据处理的各项规则并严格遵守。比如 ICMJE 提出的“生物医学期刊投稿的统一要求”(Uniform Requirements for Manuscripts Submitted to Biomedical Journals) 就对统计方法的应用、解释给出了建议。此外,研究人员还要了解其他的同类型指南,比如“文献中的分析与统计方法” (Statistical Analysis and Methods in the Published Literature, SAMPL) 指南。它将不同的统计方法分类,依次解说,对试验的设计、操作和解释都有很大指导作用。

 

多数情况下,生物医学论文都以统计数据为依据。因此多数生物医学期刊,尤其是高影响因子的,像《柳叶刀》、《自然》、《科学》、《细胞》、《美国医学会期刊》,除了动用编辑和审稿人,还会指派专门的生物统计学家评估稿件内容。目前有越来越多期刊开始采取这种做法。必须要说,由于要综合考虑研究中的多个变量、样本量、测量结果等多个因素,总结数据并得出结论从来都不是件轻松的事。计算机和统计软件让解释、分析数据有更多可能,但同时也给错误创造了更多空间。

 

挪威数学家、生物统计学家、医学研究员、斯塔万格大学 (University of Stavanger) 健康科学系副教授 Jo Røislien 说过,“统计量化了你研究结果的可信或不可信程度”。总之,研究人员在开始实验之前就该自行学习统计方法。只有正确使用统计这个工具,它才能帮研究人员达到拓展现有生物医学知识的目的。

∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴

logo.jpg

如文中所说,期刊和协学会对数据处理原则与统计方法有着明确的要求,作者在投稿前应仔细阅读规则。

如果你认为“谋划”一场发表的旅程过于操心,不妨花点时间了解投稿指导这件事。意得辑的全程无忧投稿套餐打包了科研作者的9种刚需,我们不止润色论文本身,还在投稿前后都下了功夫,从选刊、备材料,到润色返修稿件及回复信都提供支持。如因稿件问题遭拒稿,也将尽力助你重投。

这项服务如何帮到你

送选刊锦囊——不管是对所在领域的期刊缺乏系统了解,还是在某几本备选期刊中拿不定主意,都是在确定目标期刊时的典型烦恼。这时由发表专家匹配最合适的几个选项,并作最佳推荐,让投稿更具针对性也更有策略。

把握投稿的流程与节奏——论文发表与否不单看写作质量,投稿流程冗长且琐碎,任一手续处理不当都将使发表周期变长,甚至拒稿。在熟知发表门道的团队的指引下,你对下一步将发生什么有更多预知,投起稿来省时、省力、更加顺畅。

为返修善后——我们关心论文投出去的后续结果,套餐包含的多轮润色和回复信审查等服务和你一起面对大修小修。如不幸遭拒稿,我们将在一年内不计次数地协助你重整稿件向次一级意向的目标期刊重投。

更多详情欢迎移步意得辑官网了解。

科学网博文活码WSS.png



https://blog.sciencenet.cn/blog-769813-1382968.html

上一篇:生成性语言模型势头不退,学术界应怎么理解AI的潜力与边界
下一篇:都说学术与生活难平衡,作为导师能提供哪些引导
收藏 IP: 140.206.189.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 05:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部