品品科技|迎来TCN!股市预测任务是时候拥抱新技术了,告别RNN( 三 )


品品科技|迎来TCN!股市预测任务是时候拥抱新技术了,告别RNN
文章图片
数据shuffle方法性能比较
3.时间卷积网络
时间卷积网络(TCN) , 是用于序列建模任务的卷积神经网络的变体 , 结合了RNN和CNN架构 。 对TCN的初步评估表明 , 简单的卷积结构在多个任务和数据集上的性能优于典型循环网络(如LSTM) , 同时表现出更长的有效记忆 。
TCN的特征是:
1.TCN架构中的卷积是因果卷积 , 这意味着从将来到过去不存在信息「泄漏」;
2.该架构可以像RNN一样采用任意长度的序列 , 并将其映射到相同长度的输出序列 。 通过结合非常深的网络(使用残差层进行增强)和扩张卷积 , TCN具有非常长的有效历史长度(即网络能够看到很久远的过去 , 并帮助预测) 。
3.1TCN模型架构概览
3.1.1因果卷积
如前所述 , TCN基于两个原则:网络的输入输出长度相同 , 且从未来到过去不存在信息泄漏 。
为了完成第一点 , TCN使用1D全卷积网络(FCN) , 每个隐藏层的长度与输入层相同 , 并用零填充(长度为kernelsize?1)来保持后续层与之前层长度相同 。 为了实现第二点 , TCN使用因果卷积 , 即卷积中时间t处的输出仅与时间t或前一层中的元素进行卷积 。
简而言之:TCN=1DFCN+因果卷积 。
3.1.2扩张卷积
简单的因果卷积回看的历史长度只能与网络深度呈线性关系 。 这使得将因果卷积应用于序列任务具有一定难度 , 尤其是需要更长历史的任务 。 Bai等人采用扩张卷积找到了一种解决方案 , 其感受野呈指数级增大 。 对于一维序列输入x∈R^?和滤波器f:→R , 序列元素s的扩张卷积运算F可定义为:
品品科技|迎来TCN!股市预测任务是时候拥抱新技术了,告别RNN
文章图片
其中d是扩张因子 , k是滤波器大小 , s-d·i代表过去的方向 。 因此 , 扩张卷积等效于在每两个相邻的滤波器之间引入一个固定的步长 。 当d=1时 , 扩张卷积即为常规卷积 。 而使用较大的扩张因子 , 可使顶层的输出表示更大范围的输入 , 从而有效地扩展了ConvNet的感受野 。
品品科技|迎来TCN!股市预测任务是时候拥抱新技术了,告别RNN
文章图片
扩张因果卷积 , 扩张因子d=1、2、4 , 滤波器大小k=3 。 感受野能够覆盖输入序列中的所有值 。
3.1.3残差连接
残差模块可使层高效学习修改(modification) , 进而识别映射而不是整个变换 , 这对非常深的网络很有用 。
由于TCN的感受野取决于网络深度n、滤波器大小k和扩张因子d , 因此 , 对于更深更大的TCN来说 , 稳定性很重要 。
3.2TCN的优缺点
使用TCN进行序列建模具备以下优势:
并行性 。 与RNN中后继时间步长的预测必须等待之前时间步完成预测不同 , 卷积可以并行完成 , 因为每一层都使用相同的滤波器 。 因此 , 在训练和评估中 , TCN可以处理一整个较长的输入序列 , 而不是像RNN中那样顺序处理 。
灵活的感受野大小 。 TCN有多种方式更改其感受野大小 。 例如 , 堆叠更多扩张(因果)卷积层 , 使用更大的扩张因子 , 或增加滤波器大小都是可行的选择 。 因此 , TCN可以更好地控制模型的内存大小 , 它们也可以轻松适应不同的域 。
梯度稳定 。 与循环网络不一样的是 , TCN的反向传播路径与序列的时间方向不同 。 TCN因此避免了梯度爆炸/消失问题 , 这是RNN面临的主要问题(限制了LSTM和GRU的发展) 。
训练内存需求低 。 特别是在输入序列较长的情况下 , LSTM和GRU占用大量内存存储其多个单元门的部分结果 。 然而 , 在TCN中 , 滤波器是跨层共享的 , 而反向传播路径仅取决于网络深度 。 因此 , 在实践中 , 人们发现门控RNN比TCN消耗的内存更多 。