实例|开源巨献:27个深度强化学习算法的实例项目

译者:AI研习社(宋怡然)
双语原文链接:Deep Reinforcement Learning Nanodegree Algorithms
在这里,您可以找到几个致力于“深度强化学习”方法的项目。 项目以矩阵形式部署:[env x model],其中env是要解决的环境,而model是解决该环境的模型/算法。 在某些情况下,可以通过几种算法来解决同一环境。 所有项目均以包含培训日志的Jupyter笔记本的形式呈现。支持以下环境:
AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.
在Udacity深度强化学习学位计划的框架内解决了四个环境(导航,爬虫,到达者,网球)。
- 蒙特卡洛方法
在蒙特卡洛(MC)中,我们玩游戏的情节直到到达终点,我们从途中获得了奖励然后返回情节的开始。 我们重复此方法至足够的次数,然后平均每个状态的值。
- 时差方法与Q学习
- 连续空间中的强化学习(深度Q网络)
- 函数逼近和神经网络
通用逼近定理(UAT)规定,只要满足有关激活函数形式的轻微假设,就可以使用包含具有有限数量节点的单个隐藏层的前馈神经网络来近似任何连续函数。
- 基于策略的方法,爬山,模拟退火
在许多情况下,随机重启爬山是一种出奇的有效算法。 模拟退火是一种很好的概率技术,因为它不会偶然错误地将局部极值作为全局极值。
- 策略渐变方法,REINFORCE,PPO
定义一个性能指标J(\ theta)以使其最大化。 通过近似梯度上升来学习策略参数\ theta。
- 关键行为法,A3C,A2C,DDPG,TD3,SAC
A3C与A2C的主要区别在于异步部分。A3C由具有权重的多个独立代理(网络)组成,它们与环境的不同副本并行进行交互。 因此,他们可以在更少的时间内探索状态-行动空间的更大部分。
项目,模型和方法AntBulletEnv, Soft Actor-Critic (SAC)
<ahelp_2" name="help_2">
BipedalWalker, Twin Delayed DDPG (TD3)
BipedalWalker, PPO, Vectorized Environment
BipedalWalker, Soft Actor-Critic (SAC)
BipedalWalker, A2C, Vectorized Environment
CarRacing with PPO, Learning from Raw Pixels
CartPole, Policy Based Methods, Hill Climbing
CartPole, Policy Gradient Methods, REINFORCE
Cartpole, DQN
Cartpole, Double DQN
HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Soft Actor-Critic (SAC)
LunarLander-v2, DQN
LunarLanderContinuous-v2, DDPG
Markov Decision Process, Monte-Carlo, Gridworld 6x6
MinitaurBulletEnv, Soft Actor-Critic (SAC)
MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)
Pong, Policy Gradient Methods, PPO
Pong, Policy Gradient Methods, REINFORCE
Snake, DQN, Pygame
Udacity Project 1: Navigation, DQN, ReplayBuffer
Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)
Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler
Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis
Walker2DBulletEnv, Twin Delayed DDPG (TD3)
Walker2DBulletEnv, Soft Actor-Critic (SAC)
DQN和Double DQN的项目
<ahelp_3" name="help_3">

  • Cartpole, DQN
  • Cartpole, Double DQN
  • LunarLander-v2, DQN
  • Navigation, DQN
  • Snake, DQN, Pygame
PPO的项目
实例|开源巨献:27个深度强化学习算法的实例项目】<ahelp_3" name="help_3">
  • Pong, 8个并行代理
  • CarRacing, 单一代理,从像素中学习
  • C r a w l e r , 12 个并行代理
  • BipedalWalker, 16 个并行代理
<ahelp_3" name="help_3">
<ahelp_3" name="help_3">TD3的项目<ahelp_3" name="help_3">
  • BipedalWalker
  • HalfChhetahBulletEnv
  • HopperBulletEnv
  • Walker2DBulletEnv
Soft Actor-Critic (SAC) 的项目<ahelp_3" name="help_3">
  • AntBulletEnv
  • BipedalWalker
  • HopperBulletEnv
  • MinitaurBulletEnv
  • MinitaurBulletDuckEnv
  • Walker2dBulletEnv
<ahelp_4" name="help_4">
BipedalWalker,与不同模型的混合<ahelp_4" name="help_4">
  • BipedalWalker, Twin Delayed DDPG (TD3)
  • BipedalWalker, PPO, Vectorized Environment
  • BipedalWalker, Soft-Actor-Critic (SAC)
  • BipedalWalker, A2C, Vectorized Environment
<ahelp_4" name="help_4">