将Amazon,S3将数据迁移到阿里云OSS上( 六 )


文章图片
5.2.2 通过LOAD命令加载数据
LOAD overwrite table orders`
ROW FORMAT SERDE “org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe”
STORED AS PARQUET 。
其中:
“odps.properties.rolearn”使用前文创建的ram角色的arn
STORED AS PARQUET:OSS的文件为Parquet格式 , 使用STORED AS PARQUET申明导入格式为Parquet 。
将Amazon,S3将数据迁移到阿里云OSS上
文章图片
导入成功后 , 可以通过SQL命令查看和校验数据导入结果:
将Amazon,S3将数据迁移到阿里云OSS上
文章图片
通过执行多个LOAD脚本方式将OSS的全部数据迁移到MaxCompute项目中 。
6 数据核完整性与正确性核对
您可以通过表的数量、记录的数量、典型作业的查询结果来校验迁移到MaxCompute的数据是否和Redshift集群的数据一致 。 以典型作业举例如下 。
6.1 在Redshift集群中运行查询作业
select l_returnflag ,l_linestatus ,sum(l_quantity) as sum_qty 。
suml_extendedprice as sum_base_price ,suml_extendedprice*1-l_discount as sum_disc_price 。
suml_extendedprice*1-l_discount*1+l_tax as sum_charge ,avgl_quantity as avg_qty 。
avg(l_extendedprice) as avg_price ,avg(l_discount) as avg_disc ,count(*) as count_order
from lineitem
group by l_returnflag ,l_linestatus
order by l_returnflag , l_linestatus 。
查看结果
将Amazon,S3将数据迁移到阿里云OSS上
文章图片
6.2 在MaxCompute中运行相同的查询结果
在Dataworks或者MaxCompte命令行执行与Redshift相同的Query验证数据一致性:
本文相关词条概念解析:
迁移
迁移是指已经获得的知识、技能 , 甚至方法和态度对学习新知识、新技能的影响 。 这种影响可能是积极的 , 也可能是消极的 , 前者叫正迁移或简称迁移 , 后者叫负迁移或干扰 。 在心理学中 , 它指的是是一种学习对另一种学习的影响 , 指在一种情境中获得的技能、知识或态度对另一种情境中技能、知识的获得或态度的形成的影响 。 在遗传学中 , 也有不一样的意思 。