|||
摘要
传统流感预警体系在监测范围、预测准确性和实时性等方面仍存在不足。随着新一轮科技革命的兴起,现代信息技术日趋成熟,以大数据分析为基础的流感预警技术已经成为研究焦点。本文以传统流感监测预警体系作为参照,从互联网、影响因素、时空趋势、风险评估4个角度总结基于大数据的流感预警研究进展,综述大数据在流感预警中的优势、不足及未来发展的趋势。
"大数据"是指数据规模、多样性和复杂性远远超出传统数据类型和数据分析模式,需要新的架构、技术、算法分析处理,并从中提取有价值的信息和隐藏知识的数据;"大数据"不仅指海量的数据,还包括分析和解释这些海量数据的技术和能力。传统的数据分析方法是以最具有代表性的数据获取事物尽可能多的信息,以验证假设,而"大数据"将世界数据化,探寻数据流间的关联,以预测为核心,精准全面的认识事物发展变化的规律[]。近年来,随着互联网以及多学科多领域数据、知识的交互发展,大数据技术日趋成熟,与流感相关的海量数据和非结构化数据挖掘及分析技术已得到广泛应用,基于"大数据"的流感预警在提升疫情的追踪、响应和预测预警能力方面成效显著。本文从大数据分析的角度,对流感预警研究进展进行综述。
国内外传统流感监测预警体系
基于哨点医院和网络实验室的流感监测体系在西方国家发展应用较早。欧洲各国在自己的流感监测系统基础上分别建立了由WHO管理的欧洲流感网络(Euro-Flu)和由欧盟CDC主导的跨国流感监测系统(European Influenza Surveillance Network,EISN)。EISN以国家为单位,每周定性定量报告流感监测信息,包括流感疫情级别、地理分布及变化趋势、哨点样本数、病毒类型以及每10万人的流感样病例(influenza-like illness,ILI)和急性呼吸道疾病(acute respiratory illness)人数等,为欧洲各国的流感预警防控提供政策及科学依据。美国的流感监测预警系统具有全国性和综合性,由美国CDC和其他部门相互协作建立的,可同时对门诊患者、住院病例、病毒学、死亡率、流感地理分布概况等进行监测。通过对这些数据的监测来判断流感疫情的发展趋势,同时开展综合预警,为美国的流感预防和治疗提供信息服务和指导意见。我国于1957年成立了国家流感中心,2000年建立了与WHO合作的流感监测网络,通过对监测的数据进行分析,掌握流感的动态变化规律。2008年,中国CDC在全国范围内建立了传染病自动预警信息系统,通过流感的历史病例数对未来流感的暴发进行预警,2009年该监测网络实现了对全国所有地(市)级地区的覆盖。国家流感监测系统以周报形式发布流感信息,包括暴发疫情、ILI报告和病原学监测,并按南、北地区进行分析报告。随着国家流感监测系统的不断完善,监测网络逐步稳定,其已成为早期发现和控制流感疫情的重要手段。
基于传统流感监测体系,国内外开展了多项关于流感预测预警技术的研究,如利用医院就诊数据预测流感发生,对实验室确认病例、ILI和传染病法定报告传染病信息系统数据在开发流感早期预警系统应用中的有效性进行比较分析,以及运用传统时间序列模型等方法对历史流感监测数据进行数据挖掘及预测预警,均得到良好的效果。
一直以来,传统流感监测预警体系在各国的流感防控中起到了举足轻重的作用,但随着全球经济一体化、信息化、气候变暖等进程的不断加剧,传统流感监测预警体系已经不能适应如此复杂的变化。例如,欧洲流感监测系统是在各国自选哨点的基础上建立的,因各国流感监测项目不同,导致缺乏统一的规范和整合。美国流感监测系统报告的不同地理区域的ILI活动差异不能准确反映ILI患病率的真实差异,而这些差异可以反映不同地区系统的收集和聚集偏倚[]。我国的流感监测预警体系也存在着运行成本昂贵、监测网络覆盖率不高、信息上报效率较低、无法充分展示流感疫情的空间差异、过于依赖流感历史数据而缺乏多维度数据支持、数据挖掘及预测预警方法过于简单等问题。因此,开发更加高效、准确的即时预警系统,建立基于"大数据"流感预警体系,进一步提升流感疫情的预测和预警能力任重道远、势在必行。
基于互联网的流感预警方法
随着互联网信息技术的快速发展和网络覆盖率的不断提高,互联网"大数据"已经渗透到社会的各个行业、领域,各种社交软件及搜索引擎早已成为人们发布和了解各种信息的主要渠道,使得利用互联网"大数据"对流感进行预警成为可能。与传统流感预警相比,互联网"大数据"开创了不同于传统流感预警的全新模式:①不是随机样本,而是全体数据;②不是精确性,而是混杂性(模糊与概率);③不是因果关系,而是相关关系;④不是滞后预警,而是即时预警;⑤不是政府机构主导的点状局部数据采集,而是全网络、开放式、自动化的数据捕捉;⑥数据信息完全免费且预警系统运行相对高效。
2009年Google首次尝试利用搜索引擎查询数据对流感趋势进行分析,并设计了流感预测预警系统(Google Flu Trends,GFT)。该系统初期取得了良好的预测效果,比美国CDC的流感预警发布可提前7~14 d,但2011年的研究表明[],传统ILI的哨点监测数据可以比GFT更准确的反映非季节性流感活动。2013年研究认为,GFT在预测某次流感暴发时,比实际情况要夸大了几乎一倍。为提高GFT的预测准确性,Google不断微调预测算法,但每次修补又造成了新的误差。
2015年,Davidson等提出了结合"大数据"和传统监测改善流感预警的方法,将传统监测数据的可靠性和准确性与GFT预测的普遍性和即时性相结合。研究人员分别使用贝叶斯模型、机器学习方法和动力学模型尝试集成搜索引擎、社交媒体、电子健康记录、气象数据和传统数据来改善流感预警,发现上述方法均能够充分提取大数据中的有效信息,拟合包含实时和历史信息的数学模型,并补偿传统监测数据中固有的观测偏差和漏报,可显著改善预警效果。近年,我国学者也对互联网"大数据"的流感预警技术进行了探索,均取得了良好效果。
2015年,Yang等首次提出ARGO模型(AutoRegression with Google search data),利用公开的Google搜索数据估计当前ILI的活动水平。ARGO是以Google搜索查询为外生变量的自回归模型,可以即时的合并CDC报告的新信息,融入流感流行的季节性,同时捕捉人们在网上搜索行为随时间的变化,具有灵活性、自校正性、稳定性和可扩展性等特点。研究人员还提供了理论框架,既通过隐马尔可夫模型将因果关系论证结合起来。2019年,在ARGO模型基础上改进得到的ARGO Net成功将Google搜索频率和电子健康记录数据与流感活动的时空趋势相结合,产生具有更高的相关性和更低的偏倚的预测。
基于影响因素的流感预警方法
流感的发生和流行与多种影响因素密切相关,准确找出疾病影响因素,探索影响因素与疫情发生间的相互关联,并将相关影响因素数据集纳入流感预测预警模型,能够为流感疫情发生风险的分析、评估及预警提供新思路、新方法。
流感的传播通常与气象变量有关。分布滞后非线性模型(distributed lag non-linear model)能够在时间尺度上同时兼顾暴露-反应的非线性关系和暴露因素的滞后效应,已广泛应用在探讨流感与气象因素之间影响效应的研究中。数据挖掘是一系列数据驱动分析方法,相较传统回归方法更加灵活,不需过多的先验信息和参数计算,并且能够处理大量的协变量。越南的研究人员通过回归树(classification and regression tree)探索气候与ILI季节性强度之间的关系,共纳入534个潜在解释变量,发现最低绝对湿度是热带环境中ILI发生的主要驱动因素。动力学模型也是流感影响因素研究的热点方法,Shaman等建立SIRS(susceptible-infectious-recovered)模型,探讨绝对湿度是否驱动了温带地区流感传播的季节性变化,发现绝对湿度对流感的季节性和冬季流感暴发均有影响,将异常低的绝对湿度应用到冬季流感暴发的短期预测中是可行的。也有研究通过使用SEIRS(susceptible-exposed infected-removed-susceptible)模型、随机SLIAR(susceptible,latent,infectious symptomatic,infectious asymptomatic,removed)模型等方法,证实流感还会受到人群、文化特征的影响。
危险因素对流感的影响是多种影响因素共同作用的结果。有研究使用增强回归树法和传播动力学模型发现,病毒类型的特异性和气候类型的依赖性共同影响着流感活动[],并提示流感病毒与其他病原体存在相互作用。Chattopadhyay等[]分析了10年来1.5亿美国人的疾病史,结合引发流感暴发因素的"大数据集",模拟流感流行的触发机制及流行过程发现,人口的社会和种群特征,与特定湿度、温度和太阳辐射有关的天气变量,病毒随时间的变异,人口的陆路旅游习惯和流感近期时空动态,如流感波产生的自相关作用等,均是流感的重要影响因素。该模型有着很好的外推预测效果,为制定新的人群水平干预和疫情缓解政策提供了有效依据。
基于时空趋势的流感预警方法
流感疫情是一个时空传播的动态过程,相较于单纯的时间模型,综合时间和空间2个维度构建的流感疫情时空风险模型,可以对未来最有可能暴发疫情的时间范围和地理区域进行预测预警,更好地为流感防控提供理论基础和科学依据。近年来快速发展的空间信息技术将空间分析和可视化表达方法相结合,可以直观反映疾病在时空上的分布和变化特征,为大数据、多维度的流感时空分析提供了技术支撑。
Kulldorff等于2001和2005年提出前瞻性时空扫描统计量(prospective space-time scan statistics)和时空重排扫描统计量(prospective space-time permutation scan statistics)。2种方法在分析前无需对聚集性的大小、位置及规模进行限定,作为探索性分析,可以充分挖掘数据信息,发现疾病存在的异常时空聚集,已经应用于中国流感的预警防控研究中。时空扫描统计量多使用几何形状(圆形、椭圆形或方形)扫描窗口来发现疾病簇,不适用疾病的发生倾向于聚集在不规则形状的区域时。近年提出的最大连接时空排列扫描统计量(maximum linkage space-time permutation scan statistics)和联合聚类方法(co-clustering approach)则不受扫描形状和大小的限制,可以快速检测具有不规则几何区域的流感暴发,并提供更多有关暴发的空间和时间范围细节。
虽然时空扫描统计量已被应用于多种流行病学研究中,但该方法无法度量与已识别聚类相关的不确定性,且无法解释协变量信息。贝叶斯方法则可通过在数据中加入额外的协变量和时空动态信息,提供统一的框架分析与每个参数相关的不确定性,并且能够处理多重性问题。随着集成嵌套拉普拉斯逼近方法(INLA)等统计学方法和软件的提出和应用,贝叶斯方法在传染病发生发展的时空探索上取得了巨大进展[]。研究者使用平行区域方法或将狄利克雷过程(Dirichlet process)和粒子过滤器(particle filters)结合,在贝叶斯方法基础上建立新的预测模型,发现这些新模型能够显著提高对某地区2009年流感暴发的预测精度。Osthus等采用贝叶斯-空时-SIR建模方法来检验流感传播的时空动态,研究结果加强了对流感迁移的理解,并提供预警信息,可指导干预策略。
集成多种时空分析方法,结合相关的气象、社会和经济等影响因素,深入分析流感疫情流行趋势,及时侦测高风险时空区域,是当前研究的热点领域。已有研究发现,基于上述影响因素结合多种预测方法构建的综合预测模型的预测结果比单一预测方法构建的模型更为准确高效。
基于"流感风险评估"的流感预警方法
控制流感流行的关键是监测系统能否快速、准确发出警报。因此,直观、可靠的流感风险估计方法可以帮助公共卫生机构及时应对即将到来的疾病流行。随着医疗保健和公共卫生机构电子"大数据"信息的迅速增长和完善,监测和预警流感流行季和暴发流行的方法正得到不断的改进。
计算疫情阈值是监测疫情发生的关键之一。各国现行流感监测系统多采用阈值进行预警,但目前仍没有关于阈值金标准的界定或共识[],主要通过对历史数据的检查,以经验的方式指定固定阈值[],还可使用简单的统计量如平均值、标准差和中位数等确定阈值。1963年,使用流感非流行期监测的历史数据拟合基线,根据该曲线上某一显著增长确认流行发生阈值的Serfling回归模型被建立后,人们开发了各种Serfling类型的回归模型,用以监测流感疫情的发生和高峰时间[],并描述流感的季节模式,但这类方法存在下列缺点:①需要根据主观标准预先确定流行期和非流行期;②需要长期(通常为≥5年)历史数据;③不同流行区域的基线各不相同,缺乏统一标准。
另有研究则通过分析流行曲线的特性来定义流行阈值。Nobre和Stroup[67]使用指数平滑技术和流感流行曲线的数值导数的特性监测疫情暴发。该方法不需要长期的历史数据,适用于<1年的监测序列,但前提是所选的多项式模型必须与数据良好拟合,并且要进行探索性分析来选择指数平滑模型的参数。瑞典研究者以7 d为时间单位对流感监测数据进行线性回归,以线性趋势变化的剧烈程度来确定峰值,再计算正态分布密度函数的导数求出峰值强度。WHO曾使用移动流行区间法(moving epidemic method,MEM),以确定欧洲流感监测的基线和流行阈值。MEM通过最大累积速率百分比曲线的斜率是否小于预先设定的标准δ来确定流行的开始和结束,但由于区域特异性的原因,预先设定的δ难以确定。最近,Cheng等开发了移动logistic回归方法(moving logistic regression method,MLRM)来确定中国30省份季节性流感流行的阈值,通过logistic回归模型来近似累积流行曲线,但MLRM的应用局限于"对称流行波",不适用于非对称或双峰流行波。
虽然目前流感暴发监测的主要方法都是基于阈值的,但也有一些非阈值方法被成功应用。有研究使用分段回归模型(stagewise regression model,SRM)确定流感的流行开始时间,通过SRM对流行曲线的前半部分(即高峰前的每周ILI时间序列)进行拟合,以发病率突然改变的断点作为流行发生的起始点。SRM不依赖于任何阈值,可以应用于单峰流感季节,且无需较多历史数据,可以根据流行曲线的特性定义流感流行的发生。Cai等使用最大曲率法以确定日本特定地区的流感疫情发生和结束的阈值,该方法以流行曲线的最大曲率为基础,利用流行曲线的独特性,保留了非阈值法估计疫情发生的优点。中国深圳市研究中采用综合评分法,对深圳市ILI%的基线值和平均值、每周流感病毒检测阳性率和每周ILI暴发疫情次数的高低程度评分,计算权重系数,建立"流感指数"判定方程,开启了我国将流感监测数据转化为实际应用的新尝试。
"大数据"流感预警的前景展望
综上所述,基于"大数据"的流感预警方法和理论已经取得了长足进步,但该领域仍存在诸多困难和挑战:①更多的数据意味着更多无效"噪声"干扰,而过于强调数据间的相关性,忽视对疾病流行病学因果关系的解释,则可能使研究沦为"数字游戏";②在开放的数据环境中,随着互联网环境及舆论导向的快速变化,人们的相关行为也会不断发生变化,这些变化难以及时调整和捕获将造成预警偏差;③多样化、复杂化的"大数据"采集、整合和分析很难像传统"小数据"那样缜密简洁,现阶段数据相关处理技术和架构的落后,导致很多隐藏在大数据中的有效信息难以得到充分挖掘,而在数据采集过程中出现的数据可用性低、质量难以保证等问题同样带来了噪声积累和伪相关等一系列统计学问题;④在高维数据集中,"大数据"分析过程很容易受到"维数诅咒"的影响,稀疏性、多重共线性、模型复杂性、模型拟合的计算成本和模型过度拟合是高维数据集所面临的主要问题;⑤"大数据"越开放越有价值,但数据安全管理等方面的相关政策与法规并不完善,数据开放和隐私之间难以平衡,"大数据"的利用面临着伦理问题的挑战。
尽管基于"大数据"的流感预警还存在不足,但这并不能否定"大数据"对流感预警的潜在价值[]。提高对数据的采集、管理、分析和应用能力,让"大数据"对流感预警产生帮助是当前的关键问题。面对"大数据"引领的"大变革",随着健康医疗"大数据"体系的持续构建、流感监测体系的覆盖率和可靠性不断增加、互联网和移动设备的进一步普及、数据集成及挖掘技术的不断创新发展,未来基于传统流感监测数据,集成互联网、地理气候及社会经济人口等数据源,进行动态多维度透视化的分析与展示,以提供更多更全面的疾病信息,提高流感预测预警的准确性和时效性,将是这一领域的研究方向。相信在不远的将来,基于"大数据"的流感预警将成为趋势,就像今天的天气预报那样准确与平常。
中华流行病学杂志, 2020,41(06) 付之鸥, 鲍昌俊, 李中杰, 等.
流感预警可参考国家科技成果:
利用太阳黑子活动数据开展流感等传染病预警的研究
曲江文等 发表于2019年1月
流感大流行等新发病毒性传染病的发生具有发病率和病死率高, 传播迅速和波及范围广的特点,极易演变成严重的突发公共卫生事件或国际关注疾病。近些年来,随着各种新发病毒性传染病的不断出现,科学界都在关注哪些因素导致了这些疾病的出现以及未来如何及时做出预测预警,但是目前的纯医学和唯病毒研究无法彻底解决新发病毒性传染病的起源问题,本课题的研究在打破传统观念的基础上,创新性的提出太阳黑子极值年的活动、减弱的地磁场以及增强的宇宙射线可能是导致近些年来新发病毒传染病频发的主要原因,并从太阳黑子活动影响气候变化、候鸟迁徙、动物种群混合以及射线导致病毒基因变异和重组的角度科学的解释了为什么来自太空的各种射线会导致流感等新发病毒传染病的出现,并提出了依据太阳黑子活动数据开展预警的方法。 在上述研究的基础上,我们预测伴随着中等强度厄尔尼诺的发生,2019-2020年全球很可能会发生新型流感和寨卡病毒大流行,南美洲附近仍是高风险地区;如果太阳黑子活动持续进入现代极小期,从中长期来看,全球新发病毒性传染病将进入高发期和多发期,全球在未来30~50年内会不断出现各种新发病毒传染病,甚至可能出现鼠疫和霍乱大流行,全球公共卫生系统将面临巨大挑战,必须加强监测预警和应急准备。
本项目共发表6篇相关论文:
(1)Qu J. Is sunspot activity a factor in influenza pandemics? Reviews in medical virology. 2016,26(5):309-313.
(2)Qu J, Wickramasinghe C. Weakened magnetic field, Cosmic rays and the Zika virus outbreak. Current science. 2018;115(3):382-383。 (3)Wickramasinghe C, Qu J. Are We Approaching a New Influenza Pandemic? Virology: Current Research. 2018;2(2):1-2。
(4)Wickramasinghe NC, Steele E, Wainwright M, Tokoro G, Fernando M, Qu J. Sunspot Cycle Minima and Pandemics: The Case for Vigilance? Journal of Astrobiology & Outreach. 2017; 5(2):2-4.
(5)Qu J, Wickramasinghe C. Weakened geomagnetic field, Cosmic rays & the Resurgence of Yellow Fever. International Journal of Cell Science & Molecular Biology.2018; 4(3): 1-2。
(6)Qu J, Wickramasinghe C. Weakened Magnetic Field and the Resurgence of Mosquito-Borne Arboviruses. Infectious Diseases and Immunity.2019;2(1)1-2.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 06:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社