新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」( 二 )


实验结果
结果评估了DVRL在不同类型数据集和用例上的数据价值估计的质量 。
1.去除高/低值样本后的模型性能:
从训练集中剔除低值样本可以提高预测器模型的性能 , 特别是在训练集中含有损坏样本的情况下 。
另一方面 , 移除高值的样本 , 特别是当数据集很小时 , 会显著降低性能 。
总体而言 , 剔除高/低值样本后的表现是数据评估质量的一个强有力的指标
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
2.带有噪声标签的鲁棒学习:
GoogleAI的研究人员考虑使DVRL在带有噪声标签时可以在端到端的方式中学习 , 而不必删除低价值的样本 。
理想情况下 , 噪声样本应该得到低数据值 , 因为DVRL会收敛的同时将返回一个高性能模型 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
图:数据集的标签上有40%的均匀随机噪声 , DVRL优于其他流行的基于元学习的方法结果显示 , 在最小化噪声标签影响的情况下 , DVRL取得了SOTA的结果 。 这也表明了DVRL可以应用到复杂模型和大规模数据集 。
3.领域适应(Domainadaptation):
Google考虑的场景是 , 训练集来自与验证和测试集完全不同的分布 。 通过从训练数据集中选择最适合验证数据集分布的样本 , 数据估值预计将对此任务有所帮助 。
新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」
文章图片
DVRL通过联合优化数据估值器和相应的预测器模型 , 显著提高了领域的适应性 。
结论
GoogleAI研究院这次提出了一种新的元学习数据评估框架 , 该框架决定了每个训练样本用在预测模型的训练过程的可能性 。
与以往的研究不同的是 , 该方法将数据评估融入到预测器模型的训练过程中 , 使得预测器和DVE能够相互提高 。
通过使用一个经过RL训练的DNN对这个数据值估计任务进行建模 , 并从一个代表目标任务绩效的小验证集中获得奖励 。
DVRL以高效的计算方法提供了高质量的排序后的训练数据 , 有利于领域自适应、错误样本发现和鲁棒学习 , 同时还发现了DVRL在不同类型的任务和数据集上显著优于其他方法 。
【新智元|用强化学习量化模型中每个数据点的价值,谷歌发布最新元学习框架「DVRL」】参考链接: