Databricks入门:分析COVID-19( 二 )


我们将尝试预测Minas Gerais(MG)未来的死亡人数 。 所以第一步是收集我们的数据 。
也许你需要清除你Notebook的状态
import pandas as pdimport logginglogger = spark._jvm.org.apache.log4jlogging.getLogger("py4j").setLevel(logging.ERROR)query = """ SELECT string(date) as ds, int(deaths) as y FROM covid WHERE state = "MG" and place_type = "state" order by date"""df = spark.sql(query)df = df.toPandas()display(df)接下来 , 我们将使用Prophet拟合模型并最终绘制预测
from fbprophet import Prophetm = Prophet()m.fit(df)future = m.make_future_dataframe(periods=30)forecast = m.predict(future)fig1 = m.plot(forecast)你应该看到下面的图表和预测:
Databricks入门:分析COVID-19文章插图
结论我们的目标是演示数据科学工作流的所有步骤 。 这就是为什么我们没有描述时间序列模型是如何工作的 。 如果你遵循本教程 , 你应该对Databricks平台有一个很好的了解 。
GitHub: