持续定义 Saas 模式云数据仓库+实时分析
一、云数据仓库概述数据仓库的定义是面向主题、集成性、稳定性和时变性 , 用于支持管理决策 。数据仓库的意义在于对企业的所有数据进行归集 , 为企业各个部门提供统一的 ,规范的数据出口 。 数据仓库(模型)本质是人收集和存储数据 , 认识数据 , 组织和管理数据 , 使用数据决策的最佳实践形成的方法论 。模型本身与在哪、用什么技术无关 。但逻辑模型和物理模型在最终方案中又是紧密结合的 。 用户需要的是数仓的业务能力和技术能力 。
文章插图
数据仓库的核心能力和价值包括:采集同步、加工、存储、建模、治理、查询 。 但是为了实现数据仓库的能力和价值必须要具备的基础包括: IDC机房、部署、开通、高可用、安全、日常运 维、扩容 。 这些构成了数仓总拥有成本 。 从各个角度看 , 总成本=核心能力成本+基础成本 =产品成本+服务成本 =当前成本+长期成本+演进成本 。
MaxCompute是SaaS模式企业级云数据仓库 。 SaaS模式云数据仓库具有如下特点:
- 开箱即用
- 大规模高性能
- 免运维、专家优化
- 灵活扩展
- 数据服务
- 丰富完善的数仓能力
- 高可用 , 容灾备份
- 极致安全
- 低成本
- 能力快速演进 。 能够为企业免去拥有数据仓库的基础建设成本、维护成本、长期演进成本等非核心能力之外的投入 。
文章插图
SaaS模式云数据仓库可能的应用场景举例如下:
- 实时数据入仓和分析决策
- 业务运营场景-交互式业务指标计算、查询
- 各行业搭建数据仓库-流批一体、湖仓一体 ? 云上弹性扩展大数据计算和存储 。
- 云原生极致弹性:云原生设计 , 无服务器架构 , 支持秒级弹性伸缩 ,快速实现大规模弹性负载需求
- 简单易用多功能计算:预置多种计算模型和数据通道能力 , 开通即用
- 企业级平台服务:支持开放生态 , 提供企业级安全管理能力 。 与阿里 云众多大数据服务无缝集成
- 安全:多租户环境下安全控制能力强
- 大规模集群性能强、全链路稳定性高 , 阿里巴巴双11场景验证 。
- 实时分析场景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
- 机器学习场景-MaxCompute+PAI+DataWorks 。 等 。
文章插图
云数据仓库包含的面向用户的功能和数据流程 , 如下图所示 。 开通MaxCompute云数仓即可拥有如下全部功能和能力 。
文章插图
二、实时分析场景与价值再提一遍大数据的5V能力
1 容量(Volume) 是指大规模的数据量 , 并且数据量呈持续增长趋势 。 目前一般指超过10T规模的数据量 , 但未来随着技术的进步 , 符合大数据标准的数据集大小也会变化 。 2 速率(Velocity) 即数据生成、流动速率快 。 数据流动速率指指对数据采集、存储以及分析具有价值信息的速度 。 因此也意味着数据的采集和分析等过程必须迅速及时 。 3 多样性(Variety) 指是大数据包括多种不同格式和不同类型的数据 。 数据来源包括人与系统交互时与机器自动生成 , 来源的多样性导致数据类型的多样性 。 根据数据是否具有一定的模式、 结构和关系 , 数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据 。 4 真实性(Veracity) 指数据的质量和保真性 。 大数据环境下的数据最好具有较高的信噪比 。 5 价值(Value) 即低价值密度 。 随着数据量的增长 , 数据中有意义的信息却没有成相应比例增长 。 而价值同时与数据的真实性和数据处理时间相关 , 见图 。 其中最关键的一点是:越接近数据源 , 越早进行分析和决策 , 越能发挥数据价值 。
文章插图
实时分析的场景可以用以下两个类比演化出来:
类比1:大酒店同时具备其他综合业务 , 发展出餐 饮(实时)业务 , 用以更好的发挥协同作用 。 演化1:以数仓分析为主场景 , 根据业务实时性需 求进行实时分析 , 构建实时通道和实时交互式分析 ,形成Lambda架构 。
- 紧固件|66家落户9家已投产!阳东紧固件产业持续壮大
- QQ|QQ更新:可以自定义ID了
- 增值业务营|陌陌Q3净利润6.538亿元,持续23个季度盈利
- 个性|腾讯QQ上线QID服务 自定义专属ID创造个性社交体验
- 曹斌|对话东软睿驰曹斌:软件定义汽车时代,未来最赚钱的还是主机厂
- 手机|Redmi Note9 Pro重新定义千元机
- 持续|十一月推荐手机系列,iQOO今年多款机型热度持续
- 主业|美团Q3主业全面恢复正增长 新业务持续投入、亏损增至20亿元
- 付费|谁在定义未来三十年?音频内容付费,60后人数同比增154%,00后增94%
- 身份|QQ正式上线QID功能,用户可自定义专属身份卡