中国卫星遥感数据处理和信息提取的一场革命

2020年4月15日 , 虽然全球疫情阴霾尚未褪去 , 但也无法掩盖这天足以惊艳世界的光芒!清华大学理学院院长、地球系统科学系主任宫鹏教授和清华大学博士研究生刘涵一起 , 对外发布了清华大学中国和全球地表覆盖和土地利用制图成果 , 令在线参加的多家权威媒体 , 以及亲身参与此次项目合作的AWS(亚马逊云服务)和光环云(光环云数据有限公司)团队 , 都无比兴奋!

本篇全文均引用宫教授和刘博士发言原文 , 因为在项目的合作中 , 光环云深切感受到 , 没有什么语言比来自科学家团队的原话更真实且有力量!

中国卫星遥感数据处理和信息提取的一场革命。这是一个革命性的进步!对整个地球系统观测行业都将产生深远影响!基于现在的处理能力和AWS的技术平台的支撑 , 我们拥有了逐日的无缝的遥感观测的数据集(SeamlessDataCube , 简称SDC) , 它填补了高空间分辨率和时间频率的观测的空白 。 我们也是目前世界上唯一一个完成了全球10米分辨率地表覆盖制图的团队 , 并正向3米分辨率发展 。

SeamlessDataCube意思是什么呢?现在世界上有9个国家和地区做了DataCube , 但是就是左边这个样子 , 并不完整 , 是一片一片的 。 而SeamlessDataCube , 就是每一天的间隔里面全球都有一张完整的30米分辨率的数据 , 陆地卫星Landsat本身也做不到这个样子 , 陆地卫星本身是每16天才能对全球扫一遍 。 同时 , 我们靠的还有一个数据就是MODIS的图像来辅助 。 而得到的结果 , 就是右边图里的数据 , 逐日都有 , 对着每一个空间的点 , 30米×30米的这么大的格网里面 , 它每天都有数据 , 从2000年到2018年都有 。 有了这个数据以后 , 我们又做了很多进一步的信息提取 。 正是基于这逐日的数据 , 长时间序列的动态有很好的时空一致性 , 我们探测到了30米空间分辨率土地覆盖变化的情况 。 比如说首套从2000年到2018年间 , 逐季节的土地覆盖和逐年的土地利用 。


中国卫星遥感数据处理和信息提取的一场革命

----中国卫星遥感数据处理和信息提取的一场革命//----

这是一个创造性的大数据应用 , 充分利用了AWS的公共数据集 , 我们用它的数据集来服务于中国的科研发展 。 在这个过程中 , 我们用到了AWS在中国科技界的应用最大极限 , 我们用到的算力相当于全世界现在TOP200的高性能计算机所能提供的能力 , 而且它有紧密的数据高速网络 , 让我们做了这样一些事情 。 (AWS架构师补充解释:计算量约在10万个vCPU , 传统方法相当三四百个机柜规模 , 机柜平铺占地约一个操场那么大)同时 , 用了AWS这个技术以后 , 精度提高了10-20% 。 同时由于AWS算力资源在最靠近开放数据集的区域 , 所以数据的传输与调用速度也达到了毫秒级 , 加速了研发的进程 。 未来应用也会有更好的客户满意度 。

基于SeamlessDataCube , 我们再运用AWS上面一整套完善的人工智能和机器学习的套件和服务 , 比如说AmazonSageMaker和AmazonEKS以及AmazonEMR上面的一些机器学习的套件 , 结合我们前期构建的世界首套全球全季节普适样本库和积累的相关领域知识 , 设计和训练了一套适应遥感大数据的深度遥感特征学习和分类模型 。 并进一步借助AWS的AutoML(AutoGluon)等自动化多层堆叠集成技术 , 对模型结构和参数进行深度调优 , 并进行分布式高性能推理 。 分类结果最后经过遥感专业化的变化探测和时空一致性后处理方法 , 得到这套全国逐季节土地覆盖和逐年土地利用图 。