|||
科研上处理“数据误差”的原则和技巧
蒋继平
2011年6月22日
从事科学研究的人, 都会有切身体会, 那就是在实验过程中, 总会出现数据上的误差。一般的实验设计都需要至少三组重复, 每个重复之间虽然条件一样,可是, 得到的数据可能会不一样。 这就需要试验统计, 计算误差的分布区间, 进而评估不同的实验样本之间是否存在显著性的差异。
在社会学中, 对人群进行抽样调查, 是常用的一种获得民意的科学方法。 可是, 抽样调查的结果可能会因为被调查的人群的片面性, 因而,不能真实地反映社会现实。 这就有一个“样本误差”的问题。现代应用的一个不成文的规则,就是声明这个数据有3%的误差。 这样简单的说明, 不具有严密的科学数据, 在社会学上可以说得过去, 在真正的科研领域是站不住脚的。
因而,在科研领域, 我们在获得实验数据后, 总是对数据进行统计分析, 根据分析的结果, 确定试验是否有效, 这是最普遍和最常用的方法。
可是, 在科研实践和实际操作中, 这个程序也是可以根据具体的情况来对待的。
大家知道, 一般的实验误差可能来自于三个方面, 即人为,环境条件和实验样本。 通常情况下,在实验样本和环境条件完全一致的情况下下, 还有可能出现数据误差。 因而, 很明显, 实验误差的一个主要致因是人工误差。
人工误差是很正常的事。道理很简单, 要是让一个人在一张纸上同时画两条线,一上一下,要求画的一模一样, 不管他如何认真, 其结果这两条线总会有差异的。
所以,科研上出现误差是很正常的事,关键是我们如何正确地处理这些误差。本文仅以我个人的经历来简单地说明这个问题。
首先我要声明一下, 我是搞生物学的, 主要的工作是植物抗病筛选, 因而,我的经历也许只适合在这个专业方面的科技人员。
· 处理“数据误差”的原则。 这个原则很简单, 就是应用现有的知识和学问, 对获得数据进行分析,要是获得的具体数据与现有的已经被反复证明是正确的知识有矛盾, 一定按照现有的知识进行处理。 举个实例:蕃茄抗镰刀菌枯萎病(Fusarium Wilt of Tomato)是一个单显性基因, 因而,在感病和抗病杂交的第一代,其全部植株都是抗病的,其第二代,理论上有25%是全抗的(RR), 50% 是半抗的(Rr), 还有25% 是感病的(rr); 实际上, 75%是抗病的,因为是显性的原因。 要是某一品种在人工接种后出现65% 的感病植株,只有35%的“抗病”植株,那么,这个品种一定是感病的。 这个35%的数据是人为误差造成的。 因而,在最后作结论时,我们必须把这个品种当成感病品种来处理。否则的话, 要是我们把这35%的植株当成抗病的植株的话, 把他们保留下来,移栽后收获的种子在来年播种后长出来的的植株肯定是感病的。这样做的后果就是狼费大量的时间和精力 ,是非常不明智的和不科学的做法。 在科研的实际操作中,我们把这种误差 当成是“人工实验误差(Experiment error caused by man’s operation)”。 这35%的“抗病”植株并不是因为它们真正的抗病, 而是由于人工接种造成的失误。 所以, 我们必须毫不留情地丢弃它们。
· 处理“数据误差”的技巧。 在遵顺大原则的情况下, 在实际操作中, 还必须掌握一些“技巧”。这些技巧实际上是科研人员运用已有的知识结合自己在科研实践中积累的经验而产生的学问。 面对试验中出现的“误差”, 能够根据不同的情况来进行不同的处理。还是拿蕃茄抗镰刀菌枯萎病(Fusarium Wilt of Tomato)来作为一个具体的例子。我们要对一批蕃茄杂交二代进行抗性筛选,在供测试的100个样品中,都是从杂交第一代中单株选出来的品系。我们将每个样本接种30株。 测试的目的有两种:一种是“只要数据(Index only), 另一种是“保留存活者(Save survivors)。 在对抗性进行评估时, 我通常会根据测试的目的要求进行不同的处理。 对于只要数据的测试, 在样本的评估上就比较宽松。 具体地说, 当一个样本的30株苗全部抗病, 就是“抗(R), 有14-29株抗的, 就是属于分化的一类(D), 低于14株的, 属于感病(S)。 但是, 对于“保留存活者”的测试要求, 我就比较严格, 标准就提高了。 30株全抗的仍然是抗(R), 23-29株抗病的属于分化类,少于23株抗病的, 属于感病类。 在这样的标准下,每个样本即使有22株“抗病”的, 仍然被认为是感病的, 这22株“存活者”仍然被无情地抛弃。 为什么要如此做呢? 这是因为从测试中保留的存活者是被用作下一个季节的种源的。 要是“存活者”没有真正的抗性,而是溜网的鱼,那么, 下一代必定是感病的, 那样的话, 我们的所有努力就毫无结果。 因而, 为了保证保留的存活者具有较高的可靠性,我就采用“宁可错杀一千, 绝不放生一个”的策略。 这是根据实验目的采取策略的技巧。 还有一个技巧是根据参照系的表现来处理实验误差。 在任何有效的实验中, 必须有参照系。 参照系的可信度可作为选择的标准。 如果参照系的可信度很高, 那么, 评估标准就可以宽松一些;要是参照系的可信度较低,那么, 评估标准旧的相应地提高。
简言之, 科研上对待实验误差一要掌握原则, 二要应用技巧。 要不然的话, 一味按照书本上学来的知识, 生搬硬套,不但脱离实际, 而且效率低下。这种科技工作者会给人一种“书呆子”的感觉。
(注: 未获授权,不得转载和分享。)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 16:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社