美剧《硅谷》深度学习APP获艾美奖提名:使用TensorFlow和GPU开发( 十 )



  • 没有在深度和逐点卷积(depthwise and pointwise)使用批量标准化(BN)和激活

    ,因为XCeption论文似乎表明这样做会导致这种类型的体系结构的准确性降低。同时,这样还具有减小网络规模的好处。

  • 使用了ELU而不是ReLU

    。与SqueezeNet实验一样,激活函数使用ELU比ReLU提供了卓越的收敛速度和最终精度。

  • 没有使用PELU

    。虽然这种方法不错,但只要我们尝试使用它,这个激活函数似乎就会陷入二元状态,网络准确性不会逐步提高,而是从一批到下一批在~0%到100%之间交替。目前还不清楚为什么会发生这种情况。