Databricks入门:分析COVID-19
文章插图
典型的数据科学工作流由以下步骤组成:
确定业务需求->数据获取->数据准备->数据分析->共享数据见解
每一个步骤都需要一套专业知识 , 这些专业知识可分为:
数据工程师:开发、构建、测试和维护数据管道
数据科学家:使用各种方法建立数据模型(机器学习模型)
数据分析师:获取数据工程师准备的数据 , 以图形、图表和仪表板的形式从中提取见解(商业智能)
平台管理员:负责管理和支持数据基础设施(DevOps)
Databricks是一个统一的平台 , 它为每个作业提供了必要的工具 。 在本文中 , 我们将通过创建一个数据管道并指出每个团队成员的职责来分析巴西的COVID-19数据 。
准备【Databricks入门:分析COVID-19】要完成下一步 , 你需要访问Databricks帐户 。 最简单的启动方法是在
集群创建(平台管理员)第一步是配置集群 。 Databricks是一个基于Spark的平台 , 是最流行的大数据分析框架之一 。 Spark本质上是一个分布式系统 。 驱动程序是集群的协调器 , 工作节点负责繁重的工作 。
平台管理员负责根据用例、spark版本、worker节点数量和自动调整配置选择适当的虚拟机系列 。 例如 , ETL过程可能需要内存优化的设备 , 而繁重的机器学习训练过程可能在gpu上运行 。
文章插图
转到Clusters页面 , 使用6.6ML运行时创建一个新的集群 。 如果你使用的是 Azure Databricks或AWS , 则需要选择驱动程序和worker节点的VM系列 。 对于本教程 , 你可以选择最便宜的 。
数据获取数据获取可能是一个具有挑战性的领域 。 通常 , 公司将数据存储在多个数据库中 , 而现在数据流的使用非常普遍 。 幸运的是 , Databricks与Spark和Delta-Lake相结合 , 可以帮助我们为批处理或流式ETL(提取、转换和加载)提供一个简单的接口 。
在本教程中 , 我们将从最简单的ETL类型开始 , 从CSV文件加载数据 。
首先 , 我们需要下载数据集 。 访问以下网址:
下载文件caso.csv.gz
解压缩该文件 , 访问“数据”菜单 , 然后单击“添加数据”按钮 。 接下来 , 上传先前下载的CSV文件 。
上传完成后 , 我们将使用数据集中显示的信息创建一个新表 。 单击Create Table UI , 将表重命名为covid , 将第一行设置为标题 , 最后单击Create按钮 。
文章插图
数据分析创建了表之后 , 我们就可以开始分析数据集了 。 首先 , 我们需要创建一个新的python notebook 。
Worspace > Users > YOUR EMAIL
单击箭头并创建一个新的Notebook
文章插图
尽管Databricks是一个python Notebook , 但它支持Notebook内的多种语言 。 在我们的例子中 , 我们将主要使用SparkSQL 。 如果你熟悉SQL , SparkSQL会让你感觉像家一样 。
让我们从查看新表开始:
%sqlSELECT * FROM covid
你应该看到这样的表:
文章插图
作为数据分析员 , 你应该能够提取有关数据的有价值的信息 。 首先 , 我们需要理解表中每一列的含义 。 一种方法是使用DESCRIBE函数:
%sqlDESCRIBE covid
文章插图
通过分析这两个表 , 我们可以推断出 , 当列place_type为state时 , 每一行表示该state的总数 。 让我们试着画出人口最多的三个州的死亡人数的演变:
%sqlSELECT date, state, deaths FROM covid WHERE state in (“MG”, “RJ”, “SP”) and place_type = “state”
单击Bar Chart按钮 , Plot选项 , 并对Line chart使用以下配置:
文章插图
现在我们有了大流行期间死亡人数演变的一个很好的代表 。 例如 , 我们可以将此图嵌入仪表板 , 以提醒这些州的人口 。
数据科学接下来 , 我们将尝试预测先前绘制的时间序列的未来值 。 为此 , 我们将使用一个名为Prophet的Facebook库
首先 , 我们需要安装一些依赖项 。
Clusters > COVID > Libraries
并使用PyPI安装以下依赖项
- pandas
- pystan
- fbprophet
文章插图
- 资本|2020年中国人工智能医疗行业发展现状分析 处于成长期且资本热度高
- 用户|密室逃脱行业发展及用户分析报告:哪些人在沉迷密室逃脱?
- 框架|三种数据分析思维框架的构建方法
- 分析师|真香定律或再被验证,iPhone12将大卖,分析师给出两个原因
- 文章|局座张召忠:分析局座历年的文章发现,我发现这些秘密
- 主题|GNN、RL崛起,CNN初现疲态?ICLR 2021最全论文主题分析
- 入门|做抖音影视赚钱比工资多,教大家新手也可快速入门
- 市场|2020年全球智能手机行业市场竞争格局分析 中国品牌在北美市场缺乏一定优势
- 开发人员|ER(实体关系)建模入门指引
- 时间|19824.66美元!比特币突破近三年高价 分析师:创新高不代表行情将持续上升