嘿丝儿科技▲PB数据放到AWS却付不起高额下载成本,NASA太难了:将247

单是这一项决策失误 , 就让NASA的云战略从天堂瞬间跌进了地狱 。
到2025年 , 美国宇航局(NASA)计划新增215PB数据存储空间 , 并希望AWS能够提供其中大部分云存储的容量 。 但让NASA没想到的是:把数据迁移至云端之后 , 出口端的数据下载成本却大幅激增 , 而他们并没给这比投入做预算 。
换句话说 , 以后科学家们必须得付费才能下载这些本就属于他们的数据 。
单是这一项决策失误 , 就让NASA的云战略从天堂瞬间跌进了地狱 。
按原定计划 , NASA到2025年将拥有247PB的数据处理能力 , 这些数据放在云端 。 NASA跟AWS签下的是一笔多大的单子呢?每月花费达543.9万美元 。 到2025年 , 除6500万美元的原有交易额外 , NASA每年还得额外向AWS支付约3000万美元的新增云服务开销 。
嘿丝儿科技▲PB数据放到AWS却付不起高额下载成本,NASA太难了:将247
文章图片
NASA忘了一个前提——云端数据下载成本
受到影响的数据主要来自NASA下辖的地球科学数据与信息系统(ESDIS)计划 , 此项计划旨在从与地球观测相关的众多空间任务中收集信息 。 收集完成后 , 相应读数将由地球观测系统数据与信息系统(EOSDIS)向各研究机构交付 。
为了存储所有数据并支持整套EOSDIS , NASA运营有12处分布式主归档中心(DAAC) , 并借此带来安全稳定的冗余和备份 。 但沉重的基础设施管理负担也让宇航局倍感压力 , 因此在2019年 , 他们决定选择AWS托管所有基础设施 , 并逐步通过EarthdataCloud项目将观测记录迁移至亚马逊云 。 从本地存储向云端的首次数据迁移 , 原本计划在2020年第一季度进行 , 剩余部分则后续分批处理 。 宇航局方面希望能在未来几年内 , 陆续将全部数据迁移至云环境当中 。
NASA当然很清楚 , 接下来还将有PB级别的数据洪流不断涌来 。 后期预计约有15个即将上线的新任务考验这套新的基础设施 , 包括NASA-ISRO合成孔径雷达(NISAR) , 以及用于检测地表水与海洋地形(SWOT)的专用卫星 , 它们每天都将产生超过100TB的数据 。 这里之所以着重强调SWOT与NISAR , 是因为二者将成为首批直接将数据转为存储至EarthdataCloud的空间科研项目 。
按预定计划发展 , 宇航局方面到2025年将拥有247PB的数据处理能力 , 远远高于目前的32PB 。
宇航局对这项云端计划本来是颇为兴奋的 , 并在迁移项目文档中提到:
美国宇航局地球科学数据的研究员与商业用户将得以快速访问并处理大量数据 , 加快研究与分析速度 。 以往在地理层面相互孤立的数据现在可以通过云端统一访问 , 从而节约时间与资源 。
但他们忘了一个前提——数据下载成本 。
这是一个现实但却极易被忽视的问题 , NASA监察长在今年3月发布的审计报告中注意到:EOSDIS并没有在这项云端计划当中正确核算数据在出口端被下载产生的费用 。
【嘿丝儿科技▲PB数据放到AWS却付不起高额下载成本,NASA太难了:将247】监察长办公室评论道 , “具体来看 , NASA忽略了从云端传出数据所带来的成本大幅提升这一问题 。 ”目前 , 在用户通过DAAC访问数据时 , 宇航局方面并不会承担额外的成本 。 “但如果最终用户从EarthdataCloud处下载数据 , 那么每次数据传出都会给NASA(而非用户)增加对应的成本 。 ”
“这意味着ESDIS将面临巨大的“云出口”成本 。 最终 , ESDIS将同时面临12处DAAC的成本 , 外加云资源使用成本(包括出口费用) 。 ”
NASA为何总犯这样愚蠢的错误?
更糟糕的是 , 宇航局方面“还没有确定具体需要将哪些数据迁移至EarthdataCloud , 也尚未根据运营经验、使用情况与出口指标组织成本模型 。 ”
“结果就是 , 现有的预估成本可能会远远低于未来运营中的实际成本:把数据迁移到云端反而会令整个体系变得成本高昂且难以管理 。 ”