OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?( 三 )



之前也有外部的媒体对此进行过报道,但大多是直译OpenAI的blog。这里我将从我们的视角分析一下此次比赛,希望可以抛砖引玉,不当之处还请大家批评指正。

OpenAI的弦外之音



OpenAI是断然不需要靠组织各类学科竞赛来博取关注和扩大影响力的,这次破天荒的组织了这个OpenAI Retro Contest的比赛,其根本目的既不是类似商业公司寻找最优算法方案,亦不是扩展自己的人才库,而是试图立这样一个flag:强化学习的强泛化性是通往通用人工智能的关键路径之一。





我们首先来看看强化学习研究中如何评测这件事。不同于监督学习是从监督样本中学习,强化学习可以自主地跟环境交互,并通过环境反馈的信号不断调整策略得到自我提升,这个跟人类自主学习的模式非常接近。