薄情先生|会怎么样?,把Transformer加深几倍


项目地址:
1预备知识
MHA:
2方法
越深层的网络 , 越难训练 。 因为训练网络时 , 容易出现梯度消失问题 , 即使layernormalization缓解了此问题 , 但是依然存在 。 在机器翻译中 , 解码器和编码器下层之间缺少梯度流动尤其成问题 。 文献2提出将交换
Pre-LN:
将Transofmer的encoder增加到30层 , 并且改变了上一层信息传递到下一层的方式 , 该方法也被96层的GPT-3采用 。
论文在不改变Transformer结构的基础,加深模型 。 主要参考了论文作者自己的一篇文献3:该文献指出 , Pre-LN比Post-LN训练更加稳定 , 但是Post-LN比Pre-LN有更大的潜力达到更好的效果;并且对比分析Post-LN训练不稳定的原因在于:Post-LN对于残差输出部分(非直接连接部分)进行LN次数少于其他部分 , 因此权重较大 。 因此提出AdaptiveModelInitialization(Admin)方法来使得Transformer模型更加稳定 , 并且能够达到原有的效果 。 主要公式如下: