机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述


_本文原题:7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周的重要论文有南加大开发的玩转《毁灭战士》游戏的 AI 智能体 , 以及Salesforce 研究者的少样本 NLP 元学习综述 。
目录:

  1. Stabilizing Differentiable Architecture Search via Perturbation-based Regularization
  2. Searching to Exploit Memorization Effect in Learning with Noisy Labels
  3. Meta-learning for Few-shot Natural Language Processing: A Survey
  4. Towards Deeper Graph Neural Networks
  5. Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog
  6. A Knowledge-Enhanced Recommendation Model with Attribute-Level Co-Attention
  7. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Stabilizing Differentiable Architecture Search via Perturbation-based Regularization
  • 作者:Xiangning Chen、Cho-Jui Hsieh
  • 论文链接:https://arxiv.org/pdf/2002.05283.pdf
摘要:近期 , 可微架构搜索算法将 NAS 搜索时间缩短至数天 , 因而备受关注 。 然而其稳定生成高性能神经网络的能力受到广泛质疑 。 许多研究者发现随着搜索进行 , DARTS 生成的网络架构反而越来越差 , 最终甚至会完全变为跳过连接 。
为了支持梯度下降 , DARTS 对于搜索空间做了连续化近似 , 并始终在优化一组连续可微的框架权重 A 。 但是在生成最终框架时 , 需要将这个权重离散化 。
在本文中 , 来自加州大学洛杉矶分校的研究作者观察到这组连续框架权重 A 在验证集上的损失函数非常不平滑 , DARTS 总是会收敛到一个非常尖锐的区域 。 因此对于 A 轻微的扰动都会让验证集性能大幅下降 , 更不用说最终的离散化过程了 。 这样尖锐的损失函数还会损害搜索算法在架构空间中的探索能力 。
于是 , 他们提出了新型 NAS 框架 SmoothDARTS(SDARTS) , 使得 A 在验证集上的损失函数变得十分平滑 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
CIFAR-10 上架构权重 A 的验证准确率 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
SDARTS 训练算法 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
在 ImageNet 上与其他 SOTA 分类器的 test error 结果比较 。
推荐:本文提出的方法可以广泛应用于各种可微架构算法 。 在各种数据集和搜索空间上 , 研究者发现 SDARTS 可以一贯地取得性能提升 。
论文 2:Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning
  • 作者:Aleksei Petrenko、 Zhehui Huang、Tushar Kumar、Gaurav Sukhatme、Vladlen Koltun
  • 论文链接: https://arxiv.org/pdf/2006.11751.pdf
摘要:最近 , 来自南加州大学和英特尔实验室的研究团队创建了一种新方法 , 该方法可以在学术实验室常见的硬件上训练深度强化学习算法 。 该研究被 ICML 2020 会议接收 。
在这项研究中 , 研究者展示了如何使用单个高端工作站 , 在第一人称射击电子游戏《毁灭战士》(Doom)中训练具有 SOTA 性能的 AI 。 不仅如此 , 他们使用正常计算能力的一小部分解决了 DeepMind 创建的 30 种不同的 3D 挑战套件 。