全球感染新冠肺炎的人数突破170万。紧要关头,各国的疫情数据成为大家关注的焦点。约翰霍普金斯大学的疫情地图更是频频出现在媒体报道的中心位置。 小到个人、大到组织,做疫情数据的有很多,连世界卫生组织都建了一个“全球地图”来统计全球疫情数据。 WHO全球地图:https://who.sprinklr.com/ 但是其中最早的、最受关注是哪个你可知道? 它就是来自约翰·霍普金斯大学的疫情地图,累计访问150亿次(相当于全世界每个人都打开了两次),日均访问超10亿次,是当之无愧的N0.1。 约翰·霍普金斯大学疫情地图: https://coronavirus.jhu.edu/map.html 该地图已经成为新冠肺炎数据最权威的来源。世界各地的新闻机构和政府机构都在使用它,甚至连美国卫生与公共服务部新冠病毒作战室的一张照片中都有它的身影。而这个疫情地图的背后,是两位中国博士生和他们的导师Lauren Gardner。 美国副总统彭斯使用约翰·霍普金斯大学开发的疫情地图 单日访问量超20亿次,霍普金斯大学疫情地图背后的两位中国博士生 这个COVID-19全球病例跟踪系统的黑色世界地图上布满了红色圆圈,并有全球以及各国、各州的确诊病例、死亡人数和康复人数的统计数字等。 可查看各国数据 可以换底图
地图不仅是实时的,还是是可交互的,点击不同的国家或区域,就会出现该地的疫情数据,用户还可以根据自己的喜好更换底图。
这个项目的发起者是约翰·霍普金斯大学系统科学与工程中心一年级博士生董恩盛。 董恩盛 近日,董恩盛在网络直播中介绍了这一项目。他谈到,产生做这个项目的想法是在1月20日。 那天是马丁路德金日,美国放假,董恩盛在家里刷新闻,觉得“疫情蛮严重的”,因为之前有相关的研究经验,他想到了去收集数据,以“记录新冠肺炎从发生到人类战胜它的过程”。 1月21日,董恩盛同导师Lauren Gardner见面,二人商量后决定收集数据,然后去做进一步研究。就这样,董恩盛当天花了六七个小时把当日的数据整理出来,第二天,这个疫情可视化地图就与大家见面了。 紧接着,Gardner的另一位博士生杜鸿儒也加入了这个项目。 杜鸿儒(左)与董恩盛(右) 起初,地图数据完全靠手动进行,每天早晚分别公布一次。但随着疫情的发展,手动更新已然不可能。从2月1日,数据采集系统升级为半自动更新。 董恩盛表示:“抓取的主要数据来源是中国医学自媒体丁香园,而丁香园的数据来源于国家卫健委和各省市区的卫健部门。紧盯丁香园,就能确保‘仪表盘’在中国大陆数据更新的及时性,每15分钟更新一次。” 而对于中国大陆以外的数据,丁香园的更新相对不够及时,于是董恩盛等人找到了其他数据来源,包括官方机构、新闻等,并进行自动监控和手动更新。 自上线以来,该网站的全球日访问量从2亿次上升到了三月初的12亿次,甚至一度达到20亿次。来自世界各地的网民不断涌入,导致服务器一度宕机,为此更换了三台服务器。 对于董恩盛来说,做这个项目也有私人因素。因为他来自山西,随着病毒在中国的蔓延,他希望找到一种方法来帮助他的家人和他的家乡。 “我真的很担心我的家人,当我收集数据的时候,我可以看到这些红点在不断增长,并且从我的家乡蔓延到我所在巴尔的摩,”他说。 地址: https://github.com/CSSEGISandData/COVID-19 “我从来没想过会做这么大范围的项目,而且是实时的。”对于这个疫情地图的走红,董恩盛也觉得不可思议。此外,这个项目在Github上也备受欢迎,目前已收获近两万颗星。 访问量太大导致亚马逊云计算服务器不堪重负,全球最受关注的疫情地图是如何炼成的? 上周五,《科学内幕》采访了董恩盛的导师——霍普金斯大学系统科学与工程中心的联合主任Lauren Gardner,她先前的工作涉及对麻疹和寨卡病毒的流行进行空间建模。下面我们和大家分享采访重点。 Lauren Gardner 问:现在有很多网站都在追踪COVID-19病例。您的网站是如何做到第一的? 答:可能是因为它存在的时间最长。我们是在一月份开始这项工作的,当时疫情几乎只在中国爆发。 我的一名中国博士研究生董恩盛对此很感兴趣。在几个小时内,我们构建了原始的仪表盘。第二天(1月22日) ,我在推特上分享了它,它立刻变得流行起来。
问:仪表板利用了数百个来源,从WHO数据到汇总有关COVID-19的新闻报道和社交媒体报道的网站。您如何确保它是准确的而不会重复计算? 答:一直都有无数双眼睛盯着。所以,如果我们计算有误,人们会立马与我们联系。我们收到成千上万封电子邮件。我们会被告知,“嘿,这里有两个您不知道的新病例。” 现在,我们还有一个异常检测系统,可以提醒我们自动收集的案例报告中的差异。 我们确实要担心陷入循环(将我们自己的数据作为原始数据反馈给我们)。有一个美国的媒体聚合网站,叫做1point3Acres,我们非常关注它。我们从他们那里获取美国的数据,他们从我们这里获取全球的数据。我们必须非常小心,只参考他们的国家数据。 我想让所有不同的地方卫生当局继续改进自己的报告,这样我们就可以直接从他们那里而不是从当地媒体的报道中获取数据。
问:您无法从疾病控制与预防中心获得美国数据吗? 答:您会这样认为。但是他们只提供州级数据,有时会有24到48小时的延迟。没有县级的数据。
Lauren Gardner 问:您的团队规模有多大? 答:最开始我们团队大约有六个人。但是很快,霍普金斯就伸出手并在内部提供了支持。因为我们的需求导致亚马逊(云计算)的服务器不堪重负。现在,霍普金斯大学的应用物理实验室为后端数据管理和技术提供了帮助。拥有地图软件的公司Esri帮助管理平台。霍普金斯大学的人们管理媒体和通讯。 但是这个团队仍然比我们正在做的事情要小得多。 问:工作量如何?你们轮班工作吗? 答:在过去的两个多月里,我们一直在努力决定从哪里收集数据、哪些数据是可信的、如何对其进行汇总、验证。最初,我们手动完成所有操作。现在,几乎所有东西都可以通过各种交叉检查实现自动化。仪表盘每小时自动更新一次。我们也在24小时轮班处理服务器问题和数据管理。例如,我们有一个在英国的博士生,他上早班。 这是一个以志愿者为基础的大型公共服务项目。我们只是尽我们最大的努力让它尽可能的好,但是我们知道它并不完美。 问:由于最初把钻石公主号游轮放在美国中部,而这个地方恰好在堪萨斯州,因此你受到了抨击? 答:是的,每天都是新的惊喜。 地缘政治方面的影响一直令人紧张和分心。我只是想报告那些对于想要访问它的人来说最有用和最合适的数据。病毒不在乎边界。 问:随着COVID-19病例数量的增加,还有更多工作要做吗? 答:实际上现在人工的工作量减少了,因为它是自动化的。我们现在花更多的时间做其他类型的研究。我几乎90%的兴趣和努力都回到了围绕这个疾病的数学建模上。我们正在对美国正在发生的事情进行实时风险评估,目的是将这些结果反馈给决策者,让他们知道,“这是我们明天应该担心的县。” 我们能做到,所以我们应该在这方面提供帮助。 问:你得到足够的睡眠吗? 答:很累。自从一月份以来,我们就一直在这样做。我们把实验室里的其他事情都搁置了。这种情况可能至少还会持续几个月。我想我们会跟踪疫情一年。它会继续在世界各地传播。因此,肯定要付出110%的努力。我认为所有在这个领域工作的公共卫生人员都有同样的感受。
|