Databricks入门:分析COVID-19


Databricks入门:分析COVID-19文章插图
典型的数据科学工作流由以下步骤组成:
确定业务需求->数据获取->数据准备->数据分析->共享数据见解
每一个步骤都需要一套专业知识 , 这些专业知识可分为:
数据工程师:开发、构建、测试和维护数据管道
数据科学家:使用各种方法建立数据模型(机器学习模型)
数据分析师:获取数据工程师准备的数据 , 以图形、图表和仪表板的形式从中提取见解(商业智能)
平台管理员:负责管理和支持数据基础设施(DevOps)
Databricks是一个统一的平台 , 它为每个作业提供了必要的工具 。 在本文中 , 我们将通过创建一个数据管道并指出每个团队成员的职责来分析巴西的COVID-19数据 。
准备【Databricks入门:分析COVID-19】要完成下一步 , 你需要访问Databricks帐户 。 最简单的启动方法是在
集群创建(平台管理员)第一步是配置集群 。 Databricks是一个基于Spark的平台 , 是最流行的大数据分析框架之一 。 Spark本质上是一个分布式系统 。 驱动程序是集群的协调器 , 工作节点负责繁重的工作 。
平台管理员负责根据用例、spark版本、worker节点数量和自动调整配置选择适当的虚拟机系列 。 例如 , ETL过程可能需要内存优化的设备 , 而繁重的机器学习训练过程可能在gpu上运行 。
Databricks入门:分析COVID-19文章插图
转到Clusters页面 , 使用6.6ML运行时创建一个新的集群 。 如果你使用的是 Azure Databricks或AWS , 则需要选择驱动程序和worker节点的VM系列 。 对于本教程 , 你可以选择最便宜的 。
数据获取数据获取可能是一个具有挑战性的领域 。 通常 , 公司将数据存储在多个数据库中 , 而现在数据流的使用非常普遍 。 幸运的是 , Databricks与Spark和Delta-Lake相结合 , 可以帮助我们为批处理或流式ETL(提取、转换和加载)提供一个简单的接口 。
在本教程中 , 我们将从最简单的ETL类型开始 , 从CSV文件加载数据 。
首先 , 我们需要下载数据集 。 访问以下网址:
下载文件caso.csv.gz
解压缩该文件 , 访问“数据”菜单 , 然后单击“添加数据”按钮 。 接下来 , 上传先前下载的CSV文件 。
上传完成后 , 我们将使用数据集中显示的信息创建一个新表 。 单击Create Table UI , 将表重命名为covid , 将第一行设置为标题 , 最后单击Create按钮 。
Databricks入门:分析COVID-19文章插图
数据分析创建了表之后 , 我们就可以开始分析数据集了 。 首先 , 我们需要创建一个新的python notebook 。
Worspace > Users > YOUR EMAIL
单击箭头并创建一个新的Notebook
Databricks入门:分析COVID-19文章插图
尽管Databricks是一个python Notebook , 但它支持Notebook内的多种语言 。 在我们的例子中 , 我们将主要使用SparkSQL 。 如果你熟悉SQL , SparkSQL会让你感觉像家一样 。
让我们从查看新表开始:
%sqlSELECT * FROM covid你应该看到这样的表:
Databricks入门:分析COVID-19文章插图
作为数据分析员 , 你应该能够提取有关数据的有价值的信息 。 首先 , 我们需要理解表中每一列的含义 。 一种方法是使用DESCRIBE函数:
%sqlDESCRIBE covid
Databricks入门:分析COVID-19文章插图
通过分析这两个表 , 我们可以推断出 , 当列place_type为state时 , 每一行表示该state的总数 。 让我们试着画出人口最多的三个州的死亡人数的演变:
%sqlSELECT date, state, deaths FROM covid WHERE state in (“MG”, “RJ”, “SP”) and place_type = “state”单击Bar Chart按钮 , Plot选项 , 并对Line chart使用以下配置:
Databricks入门:分析COVID-19文章插图
现在我们有了大流行期间死亡人数演变的一个很好的代表 。 例如 , 我们可以将此图嵌入仪表板 , 以提醒这些州的人口 。
数据科学接下来 , 我们将尝试预测先前绘制的时间序列的未来值 。 为此 , 我们将使用一个名为Prophet的Facebook库
首先 , 我们需要安装一些依赖项 。
Clusters > COVID > Libraries
并使用PyPI安装以下依赖项

  • pandas
  • pystan
  • fbprophet

Databricks入门:分析COVID-19文章插图