机器学习中的时间序列预测概述

本文插图
在正常的机器学习问题中，我们通过观察值来进行预测，预测与时间因素无关。在某些情况下，机器学习也可以预测未来的结果，但这将同等对待所有过去的观察结果。
然而，时间序列数据集是完全不同的。时间序列任务增加了一个“时间维度” ，并且在观察之间也有一个明确的依赖顺序。简单地说:时间序列是按时间顺序进行的一系列观察。
时间序列数据的组成部分

平均水平（level）：序列的基线值。
趋势（Trend）：该序列遵循的行为，即根据情况和条件增加或减少。
季节性（Seasonality）：一段时间内行为的重复模式或周期。
噪声（Noise）：模型无法解释的数据的可选变化。

本文插图
可以将这些组成部分组合起来，以提供所观察到的时间序列。例如，可以将它们加在一起形成如下模型(尽管并非总是如此):

本文插图
时间序列数据可以有两种不同的类型：

单变量时间序列:指由在一定时间间隔内记录的单个(标量)观测值组成的时间序列数据。例如，从传感器收集的数据（传感器每秒测量一次房间的温度）。
多元时间序列:按一定时间间隔记录的随时间变化的多个变量。例如，在一个三轴加速度计中，有三个加速度，每个轴（x ， y ， z）一个，它们随着时间同时变化。

时间序列预测方法
下面提供了用于预测时间序列数据的各种经典方法的完整概述。

本文插图
自回归（AR）
自回归模型是将时间序列中的值回归到相同时间序列中的先前值的模型。在此模型中，下一个值表示为所有先前时间戳值（也称为滞后值）的线性组合。

本文插图
自回归模型用AR（p）表示，其中p称为模型的阶数。例如， AR（1）将是“一阶自回归过程” 。一阶AR过程中某个时刻（t）的结果变量仅与间隔一个周期的时间段（即（t-1）的值）相关。
移动平均线（MA）
与在回归中使用预测变量的过去值的线性组合不同，移动平均模型通过取该模型中任何观测子集的平均值来使用过去的预测误差项（εt）。在此模型中，当前与平均值的偏差取决于过去与平均值的偏差。移动平均线对于预测长期趋势非常有用。

本文插图
移动平均线用MA(q)表示，其中q为移动平均线窗口的大小，也称为移动平均线的阶数。
自回归移动平均线（ARMA）
ARMA模型就是上述AR(p)和MA(q)模型的结合。它用两个多项式来描述弱平稳随机时间序列，即一个是自回归，另一个是移动平均。它利用了AR（p）和MA（q）的优势，AR(p)利用因变量的前一个值进行预测， MA(q)利用序列均值和先前误差进行预测。
【机器学习中的时间序列预测概述】

本文插图
自回归综合移动平均线（ARIMA）
ARIMA是上述简单的自动回归移动平均线的推广，唯一的区别是积分的概念。
简而言之，此模型的关键方面是：