OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?( 四 )



但正是因为有大量的固有的标记样本存在,使得监督学习在评估这件事情上的机制非常完善,类似CIFAR-10这样的数据集,都非常明确地划分好了训练集和测试集,算法只需要在这样的划分下测试算法的精度,就可以和其他算法进行公平的比较。如此简单、成熟而又公平的评估方法,促使了上一个十年的刷榜竞赛,把语音识别、图像检测和识别以及自然语言处理等任务的精度提升到前所未有的程度。



反观强化学习,由于没法在固定的测试数据上评测,所以通常是需要研究者自己实现一个环境,然后汇报算法在这个环境中的性能,其不确定性要远远大于在固定数据上的测试精度(如果环境实现的有问题,可能会导致完全相反的结论),使得早年很多强化学习论文中的实验结果被认可度,相较监督学习而言,其实要低很多。