||
在平时工作中,经常有媒体记者或者是临床、科研方面的专家跟我们咨询或索要癌症发病相关数据,当我们告诉他们目前最新的数据是2012年,或者更早,2010年的数据时,大家都疑惑不解,接下来便会问道,这都2014年年底了,怎么最新的数据才是2012年的?我心想,这还是北京的数据,要是国家的数据,目前最新的是2010年的,要是全球相关数据,目前最新的是2007年的数据。这是为什么呢?
原因有以下几点,
第一:收集数据需要时间,全北京市户籍居民中每年大约新确诊癌症病人4万人,这4万人的数据不会自动到我们的数据库中来,北京市从2003年开始实现了信息化平台建设,全市140多家二级及以上医院每个月或者是每季度通过HIS系统汇总上报到信息平台,我们每3个月一次获取汇总后的信息。
第二:整理数据需要时间,整理什么?首先要剔除掉外地来京就诊的病例,别以为区分本地外地是件很容易的事情,其实过程相当复杂,在此不多解释,谁要想进一步了解,等以后我再写篇说明。再者要剔除重复就诊的病例,只要患者就诊一次,医院就给我们上报一次,肿瘤患者还不同于其他疾病,患者经常是在不同医院换来换去,那大家会问,现在都实名制了,用身份证号统一识别一下不就可以了吗?仍旧不是这么简单,首先识别重复的过程分两种,第一种要识别当年就诊出现的重复,第二种是要与历史数据进行比对识别重复。比如某人在2008年被确诊为癌症,我们收集了他的信息,当时他没有记录身份证号,然后在2012年,实名制以后,他当年住了4次院,那么识别当年的重复很容易就靠身份证识别了,前提是他没有拿着他爱人的身份证住过院,但是因为他在2012年没有记录身份证,所以当与历史数据进行比对时,仅靠身份证就不行了,还需要其他的校验条件。此外,还要补充信息不完整的病例,仍需要时间。
第三、病例核查需要时间。医院将病例信息上报给我们,从10多万条数据里面整理到最后4万病例,虽然全球目前采用统一的编码规则上报,但是由于各医院数据上报人员水平参差不齐,总会导致一定比例的错误数据,或是逻辑不符的数据,这些病例每年都要返回去重新核对,核对完成后,还要把这些信息更新到原来的数据库中去。
说到这,大家可能会问,干这些活需要两年吗?答案是肯定的,要是我们不每天加班的话,两年不一定干的完,为了让政府、公众及早见到最新的数据,我们利用一切可行的能够缩短数据收集整理的时间,但仅仅完成上述三条理由阐述的工作内容还远远没有达到数据整理的要求。
接着看第四点理由:死亡补发病需要时间。死亡补发病是我们领域的专业术语,什么意思?就是说医院报告给我们的发病信息存在漏报。我们不能保证所有患癌症的病人都去医院住院治疗,有些人到门诊确诊时就已经是晚期,加上年龄又比较大的话,很可能选择回家姑息治疗,因此会导致部分患者的信息我们采集不到。怎么解决?通过患者的死亡信息来补充,发病信息我们监测不到,但是只要患者死亡,我们会通过政府死因监测部门拿到患者的死亡数据,然后与我们发病数据比对,比对的上,就没有发生漏报,比对不上,我们会把该患者的信息补充到发病数据库中。前述的前三条理由我们能够控制,第四条理由我们没办法控制,假定患者2012年被确诊为癌症,同时在医院发生了漏报,回到家中,他在2014年才去世的话,那我们至少要在2015年的1月份才能拿到他的死因数据补充到我们的发病数据中来,因为死因部门收集死亡数据也需要时间。正因为如此,我们在2014年,实际上能拿到2012年的数据都不是最最完美的,但是这已经是能够完成的最最接近真实的情况了。
上面讲的只是北京市的情况,相对而言,北京信息化程度高、各个单位工作人员素质水平相对较高,全市一盘棋,因此收集的数据无论从质量还是效率,都比较高,要是收集全国的数据,那就需要更长的时间去对数据进行质控,对全球而言,那就更是如此了,况且外国人办事更严谨一些,因此才会出现开头提到的,想要在2014年要全球的最新数据,好吧,2007年的。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 09:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社