|
由于疫情的原因,笔者2020年1月底开始注意到传染病学这个领域。
笔者一直有这么一种武侠观念:数学是一门“内功”,物理、经济、生物、机器学习、复杂系统、化学等等学科都是“招式”。每一种招式都有其相应的内功来辅助熔炼。随着内功的精深,学习招式的速度会越快,而随着掌握的招式越多,学习其它的招式将会越来越容易。
所以数学是万法之根本。但学习招式却需要悟性。而至高之境界,当然如令狐冲那样,无招胜有招,不拘泥于招式,不拘泥于武器,草木竹石皆可为剑为招。
由于传染病学所需要的数学不难,所以笔者用很快的速度过了一下相关的文献。然后发现传染病学这个领域其实与复杂系统很接近。在这个学科里有一个参数很重要,叫做“再生数(reproduction number)”R。它代表一个染病患者在一个传染周期之内平均可感染R个人,所以表征传染病的蔓延强度。为了控制一个传染病的流行,必须将再生数R控制到1以下。
但是要想估算出再生数R,却必须知道两代患者之间的代际间隔(generation interval)时间T所对应的概率分布规律P(T)。这个时间T代表一个患者A从患病开始到他(她)感染的下一个人症状开始出现时的时间间隔。遗憾的是,P(T)一般是不知道的,道理很简单,要想知道它,你必须追溯所有患者的患病细节,比如他(她)被谁感染,感染他(她)的人何时有症状,他(她)又是何时有症状。如此庞大的信息量很难收集完全。所以传染病学者们假设P(T)服从指数分布、正态分布、Weibull分布、Gamma分布等等,然后用样本数据拟合这些函数。为了更好的估计参数,学者们也会使用模拟或统计推断的方法估计分布参数。
但是笔者却知道对于这种不完全信息情况下去推断概率分布函数,还有一种办法叫做“最大熵原理”(Jaynes,1957)。这个原理是什么意思呢?假如我们不知道概率分布函数长啥样,但是总可以收集到一些它的信息片段吧,比如均值、方差。如果收集到了样本均值和方差,我们就给定它们已知,寻找熵最大的概率分布函数就可以了。而这个函数就是我们要找的对象P(T)的最佳近似。简单来说,就是尽可能利用已知的信息(比如均值和方差),避免去假设任何未知的东西(所以熵最大,也即信息量最小)。这就是最大熵原理,其实很多复杂系统领域的学者都知道这个原理。
但是笔者搜遍了传染病学文献,居然发现没有学者使用最大熵原理来估计P(T)。这使得笔者快速开始相关研究,并写出了论文《Maximum entropy method for estimating the reproduction number: An investigation for COVID-19 in China》。从而为最大熵原理开辟了一个新的应用途径,也算为传染病学发展出了一个小的方法论分支。更重要的是,这个方法居然真的很成功,笔者根据新的方法预测中国3月5日到6月1日每天的确诊人数,到今天为止,仍旧非常吻合,最吻合的一天误差不超过4(例),有博文《再生数预测确诊病例》为证。
对笔者论文感兴趣的朋友可以在medRxiv自由下载:
https://www.medrxiv.org/content/10.1101/2020.03.14.20035659v1
内功和招式相互熔炼,循序渐进,触类旁通,便可以自己发展新的招式。这应该算是笔者在传染病学中的一个小原创了。当然最主要还是感谢Jaynes在1957年提出最大熵原理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-14 09:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社