联系方式

电话:0755-86392209

邮箱:jl.wang2@siat.ac.cn

地址:深圳市南山区深圳大学城学苑大道1068号

城市大数据驱动的新型冠状病毒感染的肺炎短期病例数预测研究

   新型冠状病毒肺炎疫情爆发以来,迅速在武汉、湖北乃至全国、世界范围进行扩散,引起了全国人民的密切关注。目前,新型冠状病毒肺炎疫情依旧严峻,及时对疫情发展趋势做出合理预测对疾控与卫生部门进行疫情防控、决策具有十分重要的实际意义

在疫情爆发初期,人们对疫情的发生、发展与传播规律都还了解甚少,短期内传统动力学分析模型很难通过制定合理的假设经验进行有效建模。与之不同的是,在爆发初期,基于城市大数据的分析方法从数据层面对疾病发展与人口迁徙等数据进行关联分析与建模可以实现简单快捷的疫情趋势预测。

基于2020年1月互联网大数据、交通部门数据和各省卫健委通报的新型冠状病毒性肺炎确诊数据,我们首先对各省市新型冠状病毒感染的肺炎确诊病例数和武汉的输入人口进行了相关性分析(图1)。结果表明,当前各省/直辖市确诊病例数与前期武汉输入人口之间呈现较强的正相关关系。同时由于湖北省内人口流动性很强,疫情较早传播到省内其他地区,因此前期从武汉及周边(湖北其它地市)输入人口是新型冠状病毒感染的肺炎扩散最主要的影响因素

微信图片_20200720152849.jpg

                                                                                  图 1  1月从武汉流入各省/直辖市的人口比例与1月30日确认病例数的相关性分析

基于上述相关性分析,我们从城市大数据的角度出发构建了适配疫情前期预测的多元回归模型对广东省内主要地市的病例数进行每日预测。模型整合疫情爆发地人口输入影响、疫情周边城市人口输入影响、疾病潜伏期、患病人数以及城市人口密度等因素分析人口迁徙数据与疾病趋势的关联关系。输入变量侧重考察了人口流动对前期扩散的主要影响,其主要包括:(1) 疫情爆发地人口输入影响:武汉至广东省各地市的人口输入;

(2)疫情爆发地周边城市人口输入影响:湖北省(除武汉市外的其他地市)至广东省各地市的人口输入;

(3) 疾病潜伏期:根据当前研究成果,模型对预测当日前14天(最长潜伏期)以及前6天(平均潜伏期5.8天)的人口输入给与了考虑;

(4)城市人口密度:对迁徙人口的输入城市进一步区分(考虑到大城市、较大城市等不同城市规模的人口迁徙程度、活跃程度的不同);

模型的输出结果为T+N日广东省主要城市确诊患病人数估计值。模型训练数据选用了百度迁徙提供的2020年1月以来武汉及湖北其他地市到广东的每日人流趋势数据(非精确值)以及广东省卫健委发布的从1月22日起到1月28日起的各地市患病病例数。截止到2020年2月2日,我们追踪了在1月29日至2月1日期间内模型的预测结果和当日实际确诊人数的对比,结果如图2所示:

微信图片_20200720153056.jpg

微信图片_20200720153101.png

                                                                                                  (a)广东省主要城市1月29日预测结果

微信图片_20200720153236.jpg

微信图片_20200720153241.png

                                                                                                    (b)广东省主要城市1月30日预测确诊结果

微信图片_20200720153417.jpg

微信图片_20200720153422.png

                                                                                                            (c)广东省主要城市1月31日预测结果

微信图片_20200720153602.png微信图片_20200720153608.jpg

                                                                                                    

(d)广东省主要城市2月1日预测结果

图 2  2020年1月29日至31日广东省主要城市预测确诊人数和真实人数对比

图2所示由上到下依次为1月29、30、31日和2月1日的预测结果和真实结果对比,其中横坐标为广东省主要城市,纵坐标为确诊的患病人数,累计人数前五的重要城市用红色标出。对比结果可以看出模型对主要城市确诊病例数变化趋势的预测基本准确,尤其对深圳和广州每日预测值的误差不超过10人,在1月31日和2月1日对深圳广州两城市预测结果的总平均误差率为3.26%和4.04%。模型对未来三天广东省主要城市的预测如下:

微信图片_20200720153741.png

综上,模型在疫情爆发前期从城市大数据的角度出发,区分了疫情首发区(武汉)和疫情周边地市(湖北省其他地市)的人口输入影响,同时结合了患病的潜伏期设置合理的数据观测区间并区分考虑了不同城市的情况,实现了简单快捷的短期预测,能有效地为前期广东省新型冠状病毒感染肺炎疫情的防治工作提供参考


需要注意的是:模型主要适用前期人口正常迁徙的情况,由于后期各地市采取政策性的防控措施限制了人口输入,该模型可能与实际结果存在较大差别。


特别值得注意的是截止到2月2日,深圳已出现社区内传播的病例,以考察输入性风险为主的建模方式其分析有效性开始逐渐降低。随着节后返程人流的大规模输入并逐渐过渡到稳定的人口状态,疾病本地扩散的风险不容忽视。


未来分析局部稳态情况下的疾病传播风险,需要进一步结合本地的实际疾病感染、治愈情况,同时综合考虑气候、人口行为等多维因素进行区域化的传播风险建模,探索分析城市内部的传染病动力学演进规律,为居民日常防护和政府决策提供更加科学合理的建议。


上述研究成果由中国科学院深圳先进技术研究院数字所多个科研团队共同合作完成。

团队核心成员:

生物医学信息技术研究中心:李烨,王如心,纪超杰,闻博,蒋志铭

高性能计算技术研究中心:尹凌,赵志远,刘康 

物联网计算研究中心:胡增运

供稿/中国科学院深圳先进技术研究院健康大数据智能分析技术国家地方联合工程研究中心

版权所有 © 生物医学信息技术研究中心:Copyright © 2014-2014 粤ICP备12208465号-5

技术支持 :深圳网站建设(佰达科技)