大数据架构基础知识

帮助数据科学家更好地理解架构图
大数据架构基础知识文章插图
> Photo by Jared Murray on Unsplash
介绍在使用数据获取业务价值的公司中 , 尽管您可能不会一直以数据科学技能为荣 , 但始终可以很好地管理数据基础架构 。每个人都希望将数据存储在可访问的位置 , 妥善清理并定期更新 。
在这些低调但稳定的需求的支持下 , 数据架构师的薪水与数据科学家的薪资同样高 , 甚至更高 。实际上 , 根据PayScale进行的薪酬研究() , 美国数据架构师的平均工资为121,816美元 , 而数据科学家的平均工资为96,089美元。
并不是说所有数据科学家都应该换工作 , 至少了解数据架构的基础知识对我们会有很多好处 。实际上 , 有一个简单(但有意义)的框架可以帮助您了解各种现实世界的数据体系结构 。
目录· 数据架构中的三个组件:Data Lake-> Data Warehouse-> Data Mart
· 每个组件中使用的工具
· 案例研究—构建从BigQuery(数据仓库)到Google Sheets(数据集市)的计划和自动数据馈送
· 尾注
数据架构中的三个组件:Data Lake-> Data Warehouse-> Data Mart"数据湖" , "数据仓库"和"数据集市"是数据平台体系结构中的典型组件 。按照此顺序 , 将处理业务中产生的数据并将其设置为创建另一个数据含义 。
大数据架构基础知识文章插图
> Diagram the author crafted using materials from Irasuto-ya ()
三个组件负责三种不同的功能 , 例如:
· Data Lake:拥有业务中产生的数据的原始副本 。如果有的话 , 原始数据的处理应该最少 。否则 , 如果最终发现某些数据处理错误 , 将无法追溯修复该错误 。
· 数据仓库:保存由托管数据模型处理和结构化的数据 , 反映最终使用数据的全局(非特定)方向 。在许多情况下 , 数据采用表格格式 。
· 数据集市:保存一个子部分和/或汇总的数据集 , 以使用特定的业务功能 , 例如 特定业务部门或特定地理区域 。一个典型的例子是 , 当我们准备针对特定业务线的KPI摘要时 , 然后在BI工具中进行可视化 。特别是 , 当用户希望定期并频繁地更新数据集市时 , 在仓库之后准备这种独立的组件是值得的 。相反 , 如果用户只希望某些数据组进行一次即席分析 , 则可以跳过此部分 。
大数据架构基础知识文章插图
> Summary of three data architecture components (exhibit created by author)
有关除仅裸机描述之外的更多实际示例 , 请使用Google搜索"数据架构"以查找大量数据架构图 。
大数据架构基础知识文章插图
> What you see when you image-google with "data architecture". (Image captured by author)
为什么我们需要分为这三个部分?因为过程中的不同阶段有不同的要求 。
在数据湖阶段 , 我们希望数据接近原始数据 , 而数据仓库的目的是通过清晰的维护计划使数据集更结构化 , 可管理并拥有明确的所有权 。在数据仓库中 , 我们还希望数据库类型面向分析而不是面向事务 。另一方面 , 数据集市应该可以方便地访问可能使用数据旅程最终输出的非技术人员 。
不同用途的系统组件往往在不同的时间进行重新设计 。然后 , 配置松散连接的组件在将来的维护和扩大规模方面具有优势 。
数据工程师和数据科学家如何处理这三个组成部分?粗略地说 , 数据工程师涵盖了从业务中提取的数据到数据湖 , 在数据仓库中建立数据模型以及建立ETL管道的过程 。而数据科学家则负责从数据仓库中提取数据 , 构建数据集市 , 并导致进一步的业务应用和价值创造 。
当然 , 数据工程师和数据科学家之间的这种角色分配有些理想 , 并且许多公司都不只是为了符合这个定义而聘用这两个人 。实际上 , 他们的职务描述往往会重叠 。
三要素法之外的新趋势最后但并非最不重要的一点是 , 值得注意的是 , 这种由三部分组成的方法是存在超过二十年的传统方法 , 并且新技术一直在不断出现 。例如 , "数据虚拟化"是一种允许针对数据源的一站式数据管理和操作界面的想法 , 而不管其格式和物理位置如何 。
每个组件中使用的工具现在 , 我们了解了三个数据平台组件的概念 。然后 , 人们使用什么工具? 根据此"数据平台指南"(日语) , 这里有一些想法:
数据湖/仓库数据湖和数据仓库有以下选项 。