10分钟标注数据胜过一年前960h,FAIR语音识别大进展( 二 )


10分钟标注数据胜过一年前960h,FAIR语音识别大进展文章插图
推断时没有语言模型的评估结果
下表 3 展示了 , 在没有语言模型的情况下 , 自训练和预训练的结合仍能取得不错的性能 。 这是因为伪标注过程中使用的语言模型已被部分融入伪标注数据中 。 在没有语言模型的 10 min labeled 设置下这一效应尤其显著:在 test-other 数据集上 , wav2vec 2.0 + ST (s2s scratch) 将基线方法 (wav2vec 2.0 - LM) 的词错率降低了 83% 。
10分钟标注数据胜过一年前960h,FAIR语音识别大进展文章插图