机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述( 二 )


在具体配置上 , 研究者分别采用了一个具有 10 核 CPU 和 GTX 1080 Ti GPU 的工作站级 PC , 以及配备了服务器级 36 核 CPU 和单个 RTX 2080 Ti GPU 的系统 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
Sample Factory 的架构图 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
硬件系统 1 和系统 2 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
在 Atari、VizDoom 和 DMLab 三个模拟环境中 , 与 DeepMind IMPALA、RLlib IMPALA、SeedRL V-trace 和 rlpyt PPO 等基线方法相比 , Sample Factory 更接近于理想的性能 。
推荐:完虐「机器人」 , 36 核 CPU 单机设置 , 南加大游戏 AI 在 Doom 中实现 SOTA 性能 。
论文 3:Searching to Exploit Memorization Effect in Learning with Noisy Labels

  • 作者:Quanming Yao、Hansi Yang、Bo Han、Gang Niu、James T. Kwok
  • 论文链接:https://arxiv.org/abs/1911.02377
摘要:样本选择(sample selection)是噪声标签鲁棒学习的常用方法 。 但是 , 如何适当地控制选择过程 , 进而使深度网络从记忆效应(memorization effect)中获益却是一大难题 。
在本研究中 , 受 AutoML 的启发 , 来自第四范式、清华大学等机构的研究者将此问题建模为一个函数逼近问题 。 具体来说 , 他们基于记忆效应的通用模式设计了一个特定于领域的搜索空间 , 同时提出以一种新的牛顿法(Newton algorithm)来有效地解决双层优化问题 。
此外 , 研究者还进一步对该算法进行了理论分析 , 保证了算法对临界点的良好逼近 。 在基准和真实世界数据集上的实验结果表明 , 该方法优于当前最优的噪声标签学习方法 , 并且比现有 AutoML 算法更加高效 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
在 CIFAR-10、CIFAR-100 和 MNIST 上 , 使用不同架构、优化器和优化器设置下的训练和测试准确率曲线 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
算法 2 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
MNIST 上 MentorNet、Co-teaching、Co-teaching + 和 S2E 的标签精度(lable precision)变化曲线 。
推荐:论文二作杨瀚思(Hansi Yang)为清华大学本科生 , 现为第四范式机器学习研究组实习生 。
论文 4:Meta-learning for Few-shot Natural Language Processing: A Survey
  • 作者:Wenpeng Yin
  • 论文链接:https://arxiv.org/abs/2007.09604
摘要:在本文中 , 来自 Salesforce 的研究者对少样本自然语言处理中的元学习进行了综述 。 具体而言 , 本文力图对少样本 NLP 中元学习的应用提供更清晰的定义 , 对新进展进行了总结 , 并分析了一些常用的数据集 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
多任务学习 VS 元学习 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
Reptile(OpenAI)元学习(batched version) 。
机器之心Pro|7 Papers & Radios | 南加大游戏AI玩转《毁灭战士》;少样本NLP元学习综述
本文插图
一些代表性的基于优化的(optimization-based)元学习模型 。