OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?( 六 )



但关于第二点的质疑,其实是致命的。我们先看看计算机视觉领域,我们现在可以实际使用到的人脸检测,照片场景识别等应用都是基于算法工程师在训练数据上得到的模型,这些模型在我们实际使用中(训练数据并没有我们的数据),仍然可以比较精准的检测人脸,识别场景,其根本原因就在于,监督学习在训练阶段可以以相对比较容易的方式控制模型的复杂度,从而获得较好的泛化性能。



然而这样的结论在目前的强化学习研究中并不成立,甚至没有能引起足够多的重视。以下图为例,一个在《极品飞车》游戏中训练的自动驾驶策略,如果直接应用到《QQ飞车》,99%的概率要扑街,类似的现象在Atari 2600游戏中也可以观察到。

OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?