大数据架构基础知识( 二 )


大数据架构基础知识文章插图
> Author crafted based on the "Data Platform Guide" (in Japanese)
ETL工具ETL发生在数据到达数据湖并进行处理以适合数据仓库的地方 。数据是实时到达的 , 因此ETL更喜欢事件驱动的消息传递工具 。
大数据架构基础知识文章插图
> Author crafted based on the "Data Platform Guide" (in Japanese)
工作流程引擎工作流引擎用于管理数据的整体流水线化 , 例如 , 通过流程图可视化流程在何处进行 , 在出现错误的情况下触发自动重试等 。
大数据架构基础知识文章插图
> Author crafted based on the "Data Platform Guide" (in Japanese)
数据集市/ BI工具以下工具可用作数据集市和/或BI解决方案 。 选择将取决于业务背景 , 贵公司熟悉哪些工具(例如 , 您是Tableau人员还是Power BI人员?) , 聚合数据的大小(例如 , 如果数据大小很小 , 为什么基本不解决方案 , 例如Excel或Google Sheets等解决方案是否达到了目标?) , 您使用什么数据仓库解决方案(例如 , 如果您的数据仓库位于BigQuery上 , 则Google DataStudio是一个简单的解决方案 , 因为它在Google圈子中具有自然的联系) , 等等 。
大数据架构基础知识文章插图
> Author crafted based on the "Data Platform Guide" (in Japanese)
案例研究—构建从BigQuery(数据仓库)到Google Sheets(数据集市)的计划和自动数据馈送当数据大小保持在数十兆字节左右或小于数十兆字节并且不依赖于其他大型数据集时 , 可以坚持使用基于电子表格的工具来存储 , 处理和可视化数据 , 因为它的成本更低 , 而且每个人 可以使用它 。
一旦数据变大并开始与其他数据表具有数据依存关系 , 从云存储作为一站式数据仓库开始是有益的 。(当数据变得更大到数十兆字节时 , 使用本地解决方案可以提高成本效益和可管理性 。 )
在本章中 , 我将演示一种将数据作为数据仓库存储在Google BigQuery中的情况 。BigQuery数据可以实时或短时间处理和存储 。最终用户仍然希望在高度汇总的基础上在电子表格中查看每日KPI 。这意味着数据集市可能很小 , 甚至适合电子表格解决方案 。让我们在这里使用Google表格 , 而不是Excel , 因为它可以与BigQuery中的数据源处于同一环境中 。哦 , 顺便说一句 , 不要考虑每天手动运行查询 。尝试找到一种解决方案 , 使所有内容自动运行 , 而无需您采取任何措施 。
大数据架构基础知识文章插图
> Data pipeline in case study (diagram created by author using materials from Irasuto-ya (https://ww
本案例研究中使用的数据在本案例研究中 , 我将使用一个样本表数据 , 该数据具有每次乘车纽约出租车乘客的记录 , 包括以下数据字段:
· 车号
· 驱动程序ID
· 乘车日期
· 乘客人数
· 车费金额
· 等等
样本数据作为数据仓库存储在BigQuery中 。
Google表格可以从BigQuery表中提取数据吗?从技术上讲是可以的 , 但是目前只能通过Connected Sheets使用 , 并且您需要一个G Suite Enterprise , Enterprise for Education或G Suite Enterprise Essentials帐户 。
大数据架构基础知识文章插图
> Diagram created by author.
Connected Sheets允许用户操作BigQuery表数据 , 就像在电子表格上播放它们一样 。请参阅本页面" BenCollins"博客文章上的GIF演示 。
大数据架构基础知识文章插图
> Example of the use of Google Sheets connected to BigQuery through Connected Sheets (Captured by au
连接工作表还允许自动调度和刷新工作表 , 这是数据集市的自然需求 。
【大数据架构基础知识】尽管它证明自己是一个不错的选择 , 但一个可能的问题是 , 欠缺G Suite帐户并不常见 。
有关设置的更多详细信息 , 请参阅" BenCollins"中的此博客文章 。
我们该怎么做才能将数据从BigQuery推送到Google表格?要从BigQuery提取数据并将其推送到Google表格 , 仅靠BigQuery是不够的 , 我们需要服务器功能的帮助来调用API以将查询发布到BigQuery , 接收数据并将其传递给Google表格 。
大数据架构基础知识文章插图
> Diagram created by author.