|||
不理想的数据可以剔除吗?(王德华)
一天与学生讨论关于一个实验的数据分析和统计问题。
学生说,在根据(某参数)测定的数据做的散点图中,有一个数据点出奇得高,结果导致统计分析时没有检测到差异显著性。如果删除这个数据,差异显著性就检测到了(就是说概率值P<0.05)。学生问能否删掉这个明显高的数据,并且说他已经计算了这个数据,高出平均值 (Mean) 的2倍的标准差(SD)。
我的意见:要删除数据,一定要有充足的理由。下面几种情况是可以删除的:1)如果确定是由于动物本身的问题(如健康等原因)造成的数据偏离,是可以删除的,但是所有关于这个动物的其他参数也都要一起删除,实际上等于我们减少了一个样本。2)如果确定是实验记录等方面出现的错误,如平均值为50克的一只老鼠的重量被记录成250克。对于不明原因的“歧异”数据,要特别关注这类“异常”数据,关注和分析高或低的原因是什么,是什么因素造成的,不能随意删除,不能没有根据地删除或丢弃。在我们的实验中,尽管这个歧异数据不能代表整个样本量的变化趋势,但也许会有其他什么含义。
学生又说,(这只动物)除了这一个参数异常外,其他参数在正常范围内,能否保留其他参数,而只删除这一个参数,由于是在很不理想。
我的意见:我们要清楚什么样的数据是数据理想?科学的严格性,不允许我们按照自己的意愿随意挑选数据。科学要的就是客观,数据展现的就是这种客观存在。万万不可根据统计分析结果的差异性是否显著来会过头来挑选数据。为什么差异显著的数据就是理想的数据?达到差异显著的结果就是好结果吗?一般说来,数据在统计分析前,需要先检测数据的分布特征(如正态分布),然后根据实验设计的特点选定合适的分析方法,最后检测的结果是什么就是什么。如果规定概率值p<0.05为差异显著性,那么P= 0.049,结论就是:差异就显著;如果P = 0.051,结论就是:差异就不显著。数学的含义就是这样。
实际上,生物学实验中数据偏离平均值较大的现象时常产生,就是所谓的“歧异值”。关于歧异值的处理,具体起来,生物统计学著作上有相关介绍,有点复杂;是保留还是删除,有时候会很伤脑筋。如果确定是记录或实验或动物等等客观原因造成的,是可以删除的。如果没有充分的理由,应该保留这个数据。当然最好的方法就是重复一下实验,加大样本量,这样就可以很明确确定了。生物医学研究是要高度重视的,涉及到药物、病理、药理等等人命关天,不可大意。
科研的一般原则要遵守:尊重事实,尊重数据。要获得准确的数据,获得真实的数据,正确运用数据,正确解释数据。数据是为结论服务的,结论是以数据为基础的。万不可(不允许)为了(某个)结论而决定数据的取舍。
要是根据自己的意愿进行数据修改,更是不允许的了,那就属于学术不端了。随意编造数据更是不能容忍的。如果按照自己的意愿进行数据改变,就不是科学研究了,那完全是数字游戏了,是对科学的玷污。毫无疑问属于坚决打击的学术不端行为了。
恰巧前几天有外宾来访,在研究组学术讨论会(Seminar)上,聊到这个问题。外宾的意见与我的意见是完全一致的。他还补充到:如果选择了一种数据的取舍原则,那么这个实验室或这个学者的以后的所有数据都要采取一致的处理方式,也许会终生是这个原则。不能同样的数据,(由于不同的目的)这次就删除,下次就保留。这也是不允许的。
( 提醒研究生:尊重事实,尊重数据,是基本原则。要删除数据时,一定要有充分的理由。)
(2009.9.25日草稿,2009.10.3完善)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 12:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社