手推公式:LSTM单元梯度的详细的数学推导( 二 )
反向传播推导lstm的输出有两个值需要计算 。
Softmax:对于交叉熵损失的导数 , 我们将直接使用最终的方程 。
文章插图
隐藏状态是ht 。 ht是w.r的微分 。 根据链式法则 , 推导过程如下图所示 。
文章插图
输出门相关变量:ao和ot , 微分的完整方程如下:
dJ/dVt * dVt/dht * dht/dO_t
dJ/dVt * dVt/dht可以写成dJ/dht(我们从隐藏状态得到这个值) 。
ht的值= ot * tanh(ct) ->所以我们只需要对ht w.r求导 。 t o_t 。 其区别如下:
文章插图
同样 , a_o和J之间的路径也显示出来 。 微分的完整方程如下:
dJ/dVt * dVt/dht * dt /da_o
dJ/dVt * dVt/dht * dht/dOt可以写成dJ/dOt(我们从上面的o_t得到这个值) 。
文章插图
Ct是单元的单元状态 。 除此之外 , 我们还处理候选单元格状态ac和c~_t 。
Ct的推导很简单 , 因为从Ct到J的路径很简单 。 Ct→ht→Vt→j , 因为我们已经有了dJ/dht , 我们直接微分ht w.r 。 t Ct 。
ht = ot * tanh(ct) ->所以我们只需要对ht w.r求导 。 t C_t 。
文章插图
微分的完整方程如下:
dJ/dht * dht/dCt * dCt/dc~_t
可以将dJ/dht * dht/dCt写成dJ/dCt(我们在上面有这个值) 。
Ct的值如图9公式5所示(下图第3行最后一个Ct缺少波浪号(~)符号->书写错误) 。 所以我们只需要对C_t w.r求导 。 t c ~ _t 。
文章插图
ac:如下图所示为ac到J的路径 。 根据箭头 , 微分的完整方程如下:
dJ/dht * dht/dCt * dCt/ da_c
dJ/dht * dht/dCt * dCt/dc_t可以写成dJ/dc_t(我们在上面有这个值) 。
所以我们只需要对c~t w.r求导 。 t ac 。
文章插图
输入门相关变量:it和ai
微分的完整方程如下:
dt / dt * dt /dit
可以将dJ/dht * dht/dCt写入为dJ/dCt(我们在单元格状态中有这个值) 。 所以我们只需要对Ct w.r求导 。 t it 。
文章插图
a_i:微分的完整方程如下:
dJ/dht * dht/dCt * dt /da_i
dJ/dht * dht/dCt * dCt/dit可以写成dJ/dit(我们在上面有这个值) 。 所以我们只需要对i_t w.r求导 。 t ai 。
文章插图
遗忘门相关变量:ft和af
微分的完整方程如下:
dJ/dht * dht/dCt * dCt/df_t
可以将dJ/dht * dht/dCt写入为dJ/dCt(我们在单元格状态中有这个值) 。 所以我们只需要对Ct w.r求导 。 t ft 。
文章插图
a_f:微分的完整方程如下:
dJ/dht * dht/dCt * dft/da_t
dJ/dht * dht/dCt * dCt/dft可以写成dJ/dft(我们在上面有这个值) 。 所以我们只需要对ftw.r求导 。 t af 。
文章插图
Lstm的输入
每个单元格i有两个与输入相关的变量 。 前一个单元格状态C_t-1和前一个隐藏状态与当前输入连接 , 即
[ht-1,xt] > Z_t
C_t-1:这是Lstm单元的内存 。 图5显示了单元格状态 。 c - t-1的推导很简单因为只有c - t和c - t 。
文章插图
Zt:如下图所示 , Zt进入四个不同的路径 , af,ai,ao,ac 。
Zt→af→ft→Ct→h_t→J 。 - >遗忘门
Zt→ai→it→Ct→h_t→J 。 - >输入门
Zt→ac→c~t→Ct→h_t→J 。 ->单元状态
Zt→ao→ot→Ct→h_t→J 。 - >输出门
文章插图
权重和偏差
W和b的推导很简单 。 下面的推导是针对Lstm的输出门的 。 对于其余的门 , 对权重和偏差也进行了类似的处理 。
文章插图
文章插图
输入和遗忘门的权重和偏差
文章插图
文章插图
- 公式|?有人把 5G 讲得这么简单明了
- 1个公式算出固态使用寿命?SSD背后讲究这么多,你知道几点呢
- 公式|如何用微信的爱心表情,拼成一个心形?记住这个公式就够啦
- 推出|首款定制网约车,滴滴比亚迪联手推出D1,汽车代工要转正?
- 政府|澳洲政府与新加坡联手推进区块链政府网络试验
- 外卖|美团外卖对骑手推出“同舟计划”,推动配送路线高效合规
- 技术|美国防部拟与企业携手推进5G技术
- Excel|12个公式解决Excel中按条件多列数据求和,掌握两、三个就够用了
- 未来|探究丨滴滴x比亚迪=D1∞也许是计算未来出行的公式之一
- 携手推进5G应用新未来——广东省互联网协会线上论坛第三场开坛