「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”

【「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”】开放可获取、完整、细颗粒、及时、可机读、结构化数据 , 对疫情防控尤为重要 。
疫情防控 , 科技公司一直在行动 。
在全球疫情蔓延的情况下 , 3月31日 , 谷歌启动了一项名为“COVID-19PublicDatasets(新型冠状病毒公共数据集)”的项目 , 托管一个与疫情相关的公共数据资料库 , 并免费向外界开放 , 用户可以自由访问 , 以及自由分析其中的数据信息 。
「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”
文章图片
“COVID-19PublicDatasets”是什么?
据项目官方解释 , “COVID-19PublicDatasets”中的数据 , 囊括了JHUCSSE(约翰·霍普金斯大学系统科学与工程中心)数据集、世界银行的全球健康数据和OpenStreetMap数据 , 它们都被存储在了GoogleCloud上 , 并带有“COVID-19”标签 , 研究人员可以免费访问和查询 , 并通过BigQueryML服务(一个完全托管的数据仓库)直接在内部使用这些数据训练高级机器学习模型 , 直至2020年9月15日 。
「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”
文章图片
谷歌方面表示 , “COVID-19PublicDatasets”的启动是为了更好的为‘以教育和研究为目的’的工作者提供赋能服务 , 我们不会加入或管理PHI(一个致病菌的数据库)或PII(个人验证信息)数据 , 希望尽最大努力阻止疫情蔓延 。
不过需要注意的是 , 如果用户要将“COVID-19PublicDatasets”和其它非新冠病毒数据集结合使用 , 那么BigQuerySandbox将以字节为计 , 在每月的免费额仅有10GB存储空间和1TB查询空间之外 , 超出部分则按量收费 。
疫情之下 , 开放数据集意味着什么?
数据统计显示 , 截至到昨日下午2点 , 全球COVID-19病毒确诊感染人数已超72万人 , 死亡人数达3.4万人 。
但与此同时 , 正因数据量庞大、分散 , 研究人员面临着极高强度的数据分析工作 。 除此之外 , 数据信息的不完整和部分不公开 , 也在一定程度上让大众对疫情了解不够全面 。 也因此 , 开放可获取、完整、细颗粒、及时、可机读、结构化数据尤为重要 。
此前 , 为加强全球疫情防控联动 , 多个科技界、学术界机构便联合推出了一个公开数据集“CORD-19” , 其中涵盖了截至3月13日之前的近3万篇新型冠状病毒相关论文 , 以及针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和API等 。
「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”
文章图片
而针对谷歌的“COVID-19PublicDatasets”数据集 , DescartesLabs的工程主管SamSkillman评论称 , “谷歌在BigQuery中开放并提供COVID-19数据将极大的推动研究人员进行数据分析 , 特别是免费查询服务的推出 , 会吸引更多人参与到这一项目中来 , 这对全球数据共享、提升数据分析能力、普及病毒信息非常有帮助 。 ”
更多优质内容 , 请持续关注镁客网~
「镁客网」可免费使用到9月15日,谷歌上线“新型冠状病毒公共数据集”
文章图片