在TPU上运行PyTorch的技巧总结( 二 )


网络的输入是具有6个通道的512 x 512图像 。我们测量了在训练循环中每秒处理的图像 , 根据该指标 , 所描述的TPU配置要比Tesla V100好得多 。
在TPU上运行PyTorch的技巧总结文章插图
如上所述(不带DataParallel)的单核TPU的性能为每秒26张图像 , 比所有8个核在一起的速度慢约4倍 。
由于竞争仍在进行中 , 我们没有透露Yuval使用的体系结构 , 但其大小与resnet50并没有太大差异 。但是请注意 , 由于我们没有运行相同的架构 , 因此比较是不公平的 。
尝试将训练映像切换到GCP SSD磁盘并不能提高性能 。
总结总而言之 , 我在PyTorch / XLA方面的经验参差不齐 。我遇到了多个错误/工件(此处未全部提及) , 现有文档和示例受到限制 , 并且TPU固有的局限性对于更具创意的体系结构而言可能过于严格 。另一方面 , 它大部分都可以工作 , 并且当它工作时性能很好 。
最后 , 最重要的一点是 , 别忘了在完成后停止GCP VM!
在TPU上运行PyTorch的技巧总结文章插图
作者:Zahar Chikishev
deephub翻译组