taoyingyong2014的个人博客分享 http://blog.sciencenet.cn/u/taoyingyong2014

博文

最大熵原理估计再生数

已有 3365 次阅读 2020-3-20 22:37 |系统分类:科研笔记


由于疫情的原因,笔者20201月底开始注意到传染病学这个领域。

笔者一直有这么一种武侠观念:数学是一门“内功”,物理、经济、生物、机器学习、复杂系统、化学等等学科都是“招式”。每一种招式都有其相应的内功来辅助熔炼。随着内功的精深,学习招式的速度会越快,而随着掌握的招式越多,学习其它的招式将会越来越容易。

所以数学是万法之根本。但学习招式却需要悟性。而至高之境界,当然如令狐冲那样,无招胜有招,不拘泥于招式,不拘泥于武器,草木竹石皆可为剑为招。

由于传染病学所需要的数学不难,所以笔者用很快的速度过了一下相关的文献。然后发现传染病学这个领域其实与复杂系统很接近。在这个学科里有一个参数很重要,叫做“再生数(reproduction number)”R。它代表一个染病患者在一个传染周期之内平均可感染R个人,所以表征传染病的蔓延强度。为了控制一个传染病的流行,必须将再生数R控制到1以下。

但是要想估算出再生数R,却必须知道两代患者之间的代际间隔(generation interval)时间T所对应的概率分布规律PT)。这个时间T代表一个患者A从患病开始到他(她)感染的下一个人症状开始出现时的时间间隔。遗憾的是,PT)一般是不知道的,道理很简单,要想知道它,你必须追溯所有患者的患病细节,比如他(她)被谁感染,感染他(她)的人何时有症状,他(她)又是何时有症状。如此庞大的信息量很难收集完全。所以传染病学者们假设PT)服从指数分布、正态分布、Weibull分布、Gamma分布等等,然后用样本数据拟合这些函数。为了更好的估计参数,学者们也会使用模拟或统计推断的方法估计分布参数。

但是笔者却知道对于这种不完全信息情况下去推断概率分布函数,还有一种办法叫做“最大熵原理”(Jaynes1957)。这个原理是什么意思呢?假如我们不知道概率分布函数长啥样,但是总可以收集到一些它的信息片段吧,比如均值、方差。如果收集到了样本均值和方差,我们就给定它们已知,寻找熵最大的概率分布函数就可以了。而这个函数就是我们要找的对象PT)的最佳近似。简单来说,就是尽可能利用已知的信息(比如均值和方差),避免去假设任何未知的东西(所以熵最大,也即信息量最小)。这就是最大熵原理,其实很多复杂系统领域的学者都知道这个原理。

但是笔者搜遍了传染病学文献,居然发现没有学者使用最大熵原理来估计PT)。这使得笔者快速开始相关研究,并写出了论文《Maximum entropy method for estimating the reproduction number: An investigation for COVID-19 in China》。从而为最大熵原理开辟了一个新的应用途径,也算为传染病学发展出了一个小的方法论分支。更重要的是,这个方法居然真的很成功,笔者根据新的方法预测中国3月5日到6月1日每天的确诊人数,到今天为止,仍旧非常吻合,最吻合的一天误差不超过4(例),有博文《再生数预测确诊病例》为证。

对笔者论文感兴趣的朋友可以在medRxiv自由下载:

https://www.medrxiv.org/content/10.1101/2020.03.14.20035659v1

 

内功和招式相互熔炼,循序渐进,触类旁通,便可以自己发展新的招式。这应该算是笔者在传染病学中的一个小原创了。当然最主要还是感谢Jaynes1957年提出最大熵原理。

 

 

 




https://blog.sciencenet.cn/blog-1253715-1224505.html

上一篇:再生数预测确诊病例
下一篇:不要因为“不喜欢”而留下遗憾
收藏 IP: 123.144.21.*| 热度|

5 苏保霞 张学文 马兴红 王林波 黄河宁

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 23:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部