持续定义 Saas 模式云数据仓库+实时分析

一、云数据仓库概述数据仓库的定义是面向主题、集成性、稳定性和时变性 , 用于支持管理决策 。数据仓库的意义在于对企业的所有数据进行归集 , 为企业各个部门提供统一的 ,规范的数据出口 。 数据仓库(模型)本质是人收集和存储数据 , 认识数据 , 组织和管理数据 , 使用数据决策的最佳实践形成的方法论 。模型本身与在哪、用什么技术无关 。但逻辑模型和物理模型在最终方案中又是紧密结合的 。 用户需要的是数仓的业务能力和技术能力 。
持续定义 Saas 模式云数据仓库+实时分析文章插图
数据仓库的核心能力和价值包括:采集同步、加工、存储、建模、治理、查询 。 但是为了实现数据仓库的能力和价值必须要具备的基础包括: IDC机房、部署、开通、高可用、安全、日常运 维、扩容 。 这些构成了数仓总拥有成本 。 从各个角度看 , 总成本=核心能力成本+基础成本 =产品成本+服务成本 =当前成本+长期成本+演进成本 。
MaxCompute是SaaS模式企业级云数据仓库 。 SaaS模式云数据仓库具有如下特点:

  • 开箱即用
  • 大规模高性能
  • 免运维、专家优化
  • 灵活扩展
  • 数据服务
  • 丰富完善的数仓能力
  • 高可用 , 容灾备份
  • 极致安全
  • 低成本
  • 能力快速演进 。 能够为企业免去拥有数据仓库的基础建设成本、维护成本、长期演进成本等非核心能力之外的投入 。

持续定义 Saas 模式云数据仓库+实时分析文章插图
SaaS模式云数据仓库可能的应用场景举例如下:
  • 实时数据入仓和分析决策
  • 业务运营场景-交互式业务指标计算、查询
  • 各行业搭建数据仓库-流批一体、湖仓一体 ? 云上弹性扩展大数据计算和存储 。
SaaS模式云数据仓库的产品优势包括:
  • 云原生极致弹性:云原生设计 , 无服务器架构 , 支持秒级弹性伸缩 ,快速实现大规模弹性负载需求
  • 简单易用多功能计算:预置多种计算模型和数据通道能力 , 开通即用
  • 企业级平台服务:支持开放生态 , 提供企业级安全管理能力 。 与阿里 云众多大数据服务无缝集成
  • 安全:多租户环境下安全控制能力强
  • 大规模集群性能强、全链路稳定性高 , 阿里巴巴双11场景验证 。
SaaS模式云数据仓库推荐场景和产品组合例如:
  • 实时分析场景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
  • 机器学习场景-MaxCompute+PAI+DataWorks 。 等 。
今天重点讲解实时分析场景 。
持续定义 Saas 模式云数据仓库+实时分析文章插图
云数据仓库包含的面向用户的功能和数据流程 , 如下图所示 。 开通MaxCompute云数仓即可拥有如下全部功能和能力 。
持续定义 Saas 模式云数据仓库+实时分析文章插图
二、实时分析场景与价值再提一遍大数据的5V能力
1 容量(Volume) 是指大规模的数据量 , 并且数据量呈持续增长趋势 。 目前一般指超过10T规模的数据量 , 但未来随着技术的进步 , 符合大数据标准的数据集大小也会变化 。 2 速率(Velocity) 即数据生成、流动速率快 。 数据流动速率指指对数据采集、存储以及分析具有价值信息的速度 。 因此也意味着数据的采集和分析等过程必须迅速及时 。 3 多样性(Variety) 指是大数据包括多种不同格式和不同类型的数据 。 数据来源包括人与系统交互时与机器自动生成 , 来源的多样性导致数据类型的多样性 。 根据数据是否具有一定的模式、 结构和关系 , 数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据 。 4 真实性(Veracity) 指数据的质量和保真性 。 大数据环境下的数据最好具有较高的信噪比 。 5 价值(Value) 即低价值密度 。 随着数据量的增长 , 数据中有意义的信息却没有成相应比例增长 。 而价值同时与数据的真实性和数据处理时间相关 , 见图 。 其中最关键的一点是:越接近数据源 , 越早进行分析和决策 , 越能发挥数据价值 。
持续定义 Saas 模式云数据仓库+实时分析文章插图
实时分析的场景可以用以下两个类比演化出来:
类比1:大酒店同时具备其他综合业务 , 发展出餐 饮(实时)业务 , 用以更好的发挥协同作用 。 演化1:以数仓分析为主场景 , 根据业务实时性需 求进行实时分析 , 构建实时通道和实时交互式分析 ,形成Lambda架构 。