产业气象站|谷歌、微软、亚马逊、阿里、字节深度学习面试问答整理这里

这里，问题会针对你的项目或你之前在面试中讨论的内容。
另外，根据领域的不同，使用计算机视觉或自然语言处理，这些问题可能会改变。尽管详细了解每个模型的体系结构并不重要，但你需要了解它们背??后的直觉以及为什么首先需要这些模型。
同样，就像中高级水平一样，重要的是始终将自己研究或实现的实例引入讨论中。
1、与人工神经网络相比， RNN的反向传播有何不同？
在递归神经网络中，每个节点处都有一个附加循环：

文章图片
该循环本质上也包括进入网络的时间部分。这有助于从数据中捕获顺序信息，这在通用的人工神经网络中是不可能的。
这就是为什么RNN中的反向传播称为“按时间反向传播”的原因，就像每个时间步的反向传播一样。
需要RNN详细分析的可以搜：深度学习基础-递归神经网络简介。
2、LSTM如何解决消失的梯度挑战？
LSTM模型被认为是RNNs的一个特例。在使用普通RNN模型时，我们前面看到的消失梯度和爆炸梯度的问题是一个缺点。
在LSTM中，我们添加了一个“遗忘门” ，它基本上是一个存储单元，用于保留跨时间步长保留的信息，并丢弃其他不需要的信息。这也需要输入和输出门也包括忘记门的结果。

文章图片
3、为什么GRU比LSTM快？
如你所见， LSTM模型可能变得非常复杂。为了仍然保留跨时间保留信息的功能，并且又不建立过于复杂的模型，我们需要GRU 。
基本上，在GRU中，我们没有输入额外的“忘记门” ，而是将输入和“忘记”门组合到一个更新门中：

文章图片
正是由于门数量的减少，使得GRU的复杂性和速度都低于LSTM 。
4、变压器架构比RNN更好吗？
深度学习的进步使得解决自然语言处理中的许多任务成为可能。 RNN ， LSTM等网络/序列模型专门用于此目的-以便从给定的句子或段落中捕获所有可能的信息。但是，顺序处理带有以下警告：
需要高处理能力由于其顺序性质，很难并行执行这产生了Transformer体系结构。变形金刚使用所谓的注意力机制。这基本上意味着在句子的所有部分之间映射依赖关系。
5、描述你从事的项目以及你使用的工具/框架？
现在，即使你在深度学习访谈中没有问到上述任何一个问题，也肯定会问这个问题。我将它包含在进阶部分中，因为你可能会不满意所编写代码的每个部分。
面试之前，请确保：
用你所做的最新代码更新你的GitHub代码准备对使用深度学习的至少2-3个项目进行深入的解释当你被问到这样的问题时，最好对以下内容进行30秒的调整：
问题陈述你使用的数据和框架（例如PyTorch或TensorFlow）你使用的任何预训练模型，或仅基于您建立的基本模型的名称你获得的评估指标的价值之后，你可以开始详细了解模型架构，必须执行哪些预处理步骤以及如何更改数据。
【产业气象站|谷歌、微软、亚马逊、阿里、字节深度学习面试问答整理】需要注意的重要一点是，该项目不必是一个非常复杂或复杂的项目。解释清楚的对象检测项目比解释不好的视频分类项目可为你带来更多的加分。为此，我建议为你实施的每个项目都使用上述格式的README文件。