『科技湃』霍普金斯大学疫情数据幕后:五人的核心团队完成大部分工作

一个心血来潮的念头如何成为全球瞩目的焦点 。 Nature自然科研微信公号4月18日消息 , 2019年12月 , 中国出现COVID-19 , 原本正在研究令人忧心的麻疹疫情的董恩盛转而开始追踪这一新发的传染病 。 董恩盛是美国马里兰州约翰斯·霍普金斯大学土木与系统工程专业的一年级博士生 , 重点研究方向是疾病流行病学 。 1月22日 , 董恩盛与其导师LaurenGardner(霍普金斯大学系统科学与工程中心(CSSE)联合主任)一起发布了记录疫情扩散的线上“仪表盘”(dashboard) 。 这个疫情“仪表盘”和它的追踪对象一样 , 很快便传开了 。 目前已是全球新闻网站和电视节目的常用参考 , 用来追踪全球范围内的COVID-19确诊病例数、死亡病例数和治愈出院人数 。 现在 , 这个董恩盛用了几小时就建立起来的网站的日点击量已超过10亿次 。 难得的实时机会Gardner团队研究的是群体的行为方式(比如流动性等因素)会如何影响疾病风险 。 他们通过构建数学模型 , 预测可能会出现的疾病热点地区 。 她说 , SARS-CoV-2引起的COVID-19突然在武汉暴发 , 创造了一个“难得的构建新发传染病实时数据集的机会” 。 她的团队可以利用这类数据 , 为可能的疾病传播构建更准确的数学模型 。 不过 , 认识到其他研究人员也能从中获益 , 团队决定让更多的人可以用上这些数据 。 “这可以算是一个心血来潮的念头 , 当时说的是 , 我们来构建一个数据集吧 , 坚持做下去 , 把它公开 。 再者 , 让我们更进一步 , 趁热打铁把它可视化 。 然后 , 我们当天晚上就做好了这个仪表盘 。 ”Gardner说起初的目标受众是科研群体 , 比如其他流行病学家和疾病建模师等 , 但最后却引起了全世界的关注 。 这个数据集每天有超过10亿次互动——这个数字包括浏览仪表盘的人和挖掘底层数据的人 , Gardner说 。 团队最初预计访问人数会在数百上千量级 , “我想我们俩都没料到公众会有这么大的兴趣 。 ”董恩盛表示 , 疫情仪表盘的构建很简单 , 部分是因为他们团队先前已经构建过类似的东西 。 在COVID-19疫情暴发前 , Gardner和董恩盛就在用ArcGIS寻找可能出现的麻疹热点地区 , 并将建模结果可视化——ArcGIS是总部位于加州的易智瑞(Esri)推出的一个地理空间制图工具 。 这方面的经验让构建COVID-19疫情仪表盘的工作变得非常简单 。
『科技湃』霍普金斯大学疫情数据幕后:五人的核心团队完成大部分工作
文章图片
董恩盛从模拟麻疹暴发转为模拟COVID-19暴发 。 本文图片Nature自然科研微信公号数据来自各式各样的渠道 , 包括社交媒体、世卫组织、美国疾控中心、欧洲疾病预防控制中心、中国国家卫健委 , 以及世界各地的其他媒体和卫生部门 。 研究人员对这些数据进行收集整合 , 并在GitHub上发布 。 董恩盛说 , 在那之后 , 团队开始使用Esri的ArcGIS平台进行可视化渲染 。 最初 , 这些数据都是靠手动收集和输入的 , 一开始是董恩盛自己 , 然后由一些学生全天候轮流更新 。 但随着疫情的扩散 , 这种方式很快就难以为继 。 为此 , 团队着力寻找能让流程自动化的方法 。 如今 , 这个疫情仪表盘主要采用自动化网页抓取和数据聚合 , 近乎实时更新 。 (由于疫情数据的更新非常及时 , 实际上 , 它通报的一些国家的最早病例常常早于当地卫生部门 。 )底层数据集被储存在代码共享网站GitHub上 , 被“标星”(点赞)近2万次 , 有近1700条建议或错误报告提交 , 并有超过350条数据修改建议(“pullrequest”) 。 根据谷歌学术的数据 , 《柳叶刀-传染病》2月19日发表的一篇介绍该疫情仪表盘的论文已经被引用了79次 。 Gardner说 , 要跟上每一条建议、问询和错误修复几乎是做不到的 。 “事情太多了 , 如果我们有一百个人 , 我们就能把反馈汇总起来做点什么 , 那当然很好 , 但可惜的是 , 很多事我们都顾不上 。 ”尽管Gardner的三人团队——第三名成员是博士生杜鸿儒——已经发展成近24人的团队 , 得到了来自CSSE其他学生、学校媒体与传播团队、约翰斯·霍普金斯应用物理实验室 , 以及制图软件公司Esri的帮助 。 但五人的核心团队完成了其中大部分工作 。 “当疫情结束 , 人们可以再次社交和旅行后 , 我们所有人都该好好放个假 。 ”Gardner说 。 那么 , 现在的她一天要工作多少时间?“全部的时间 。 ”她平静地说道 。
『科技湃』霍普金斯大学疫情数据幕后:五人的核心团队完成大部分工作
文章图片
COVID-19疫情数据团队 。 董恩盛(左二)、LaurenGardner(左三)和其他成员(顺时针方向):HamadaBahr、杜鸿儒、FardinGanjkhanloo、FarzinAhmadi 。 照片拍摄于2020年3月20日的约翰斯·霍普金斯大学系统科学与工程中心 。 疫情的速度、范围和传播让团队的动作越来越快 。 但疫情数据的使用度也在飙升 , Gardner说 。 比如 , 应用物理实验室和Esri的团队就被派来确保疫情数据在访问量激增时可以正常运行 。 “他们负责管理整个服务器 , 确保服务器不瘫痪 , 因为当每小时的点击量达到10亿的时候 , 服务器肯定承受不了这种负荷 , ”她说 , “我们有好几次都要重新设计整个架构 , 并多次为服务器升级 。 ”地缘政治上的问题也让事情变得更加复杂 。 随着受到新冠病毒感染的国家越来越多 , 团队不得不面对一项挑战:对于有些地方的名称 , 不同的政府机构在通报病例时有不同的叫法 。 “显然 , 世界上有不少地方并没有一个统一的名字 。 ”她说 。 在遭到“大规模抵制”后 , 团队最终决定采用美国国务院发布的命名惯例 。 “诸如此类的事情非常劳心伤神 , 但它们又是很严肃的问题 。 ”她说 。 Gardner说疫情数据带来了新的合作 , 增加了她的团队和她所属中心的曝光度 。 “我确实期待这一切能为我们团队带来不错的机会 , 事实也确实如此 。 ”她说 。 比如 , 美国NASA将资助团队研究“季节性和气候”对新冠病毒的影响 。 处理数据到目前为止 , 整个团队已经日夜奋战10周了 , 他们全身心地扑在疫情数据的维护上 , 以至于很少有时间去分析仪表盘上的具体数据 。 “过去这周 , 我们用在分析上的时间首次超过了收集数据的时间 , 这比我们过去一段时间里做的任何工作都要有趣多了 。 ”她说 。 Gardner说 , 其他能让数据更具体的变量 , 比如病死率和检测率 , 还要再等等 , 不过下周应该可以上线 。 团队现在主要侧重对全美疫情的“风险评估”进行建模 , 以及分析哪些因素推动了病毒在全球扩散 。 Gardner没什么时间思考疫情本身 。 “我认为我是地球上仅有的从情感和个人层面上都还没意识到形势有多可怕的人 , ”她还表示 , “我的心思完全不在这上面 , 我可能要等形势稳定下来之后 , 才能慢慢地了解整个情况 。 ”董恩盛的家人在中国 , 还有好友在武汉 , 因此 , 他对疫情的关注度比一般人更高 。 他说:“我担心他们所有人 。 ”Gardner强调董恩盛只是一名一年级博士生 。 “我反复跟他说 , 这不是常态 。 ”她说 , “他需要准备好迎接非常乏味的二年级到五年级 。 ”原文以BehindtheJohnsHopkinsUniversitycoronavirusdashboard为标题发表在2020年4月7日的自然指数 , 作者为《自然》技术编辑JeffreyM.Perkel(原题为《日互动超十亿 , 约翰斯·霍普金斯大学疫情数据的幕后故事》)(本文来自澎湃新闻 , 更多原创资讯请下载“澎湃新闻”APP)分页标题