数据扩增技术如何实现正 margin 距离?
摘要数据扩增技术可以显著提高模型的鲁棒性 , 通常在模型训练期间使用 。 该技术通过使用对输入数据使用随机噪声添加、旋转、对抗性扰动等方法来人工扩增训练样本集 。 目前 , 数据扩增技术的应用已经十分广泛 。 本项工作中 , 主要聚焦于分析线性分类器 , 我们给出了达到非零 margin 距离所需的扩充数据点数量下限 , 并且表明 , 数据扩增技术仅在数据点成倍扩增后才能引入明显的 margin 边距 。
一. 介绍如今 , 机器学习技术在数据科学和工程学领域都有广泛应用 , 这些机器学习模型具有数百万个可调参数 , 并在许多视觉、语音和文本预测任务上具有极高的准确率 。 为了优化性能 , 模型训练涉及随机梯度下降(SGD)、正则化、数据扩增和其他启发式方法 。 在这些方法中 , 数据扩增在提高模型鲁棒性和改善模型测试错误率等方面起着核心作用 。
数据扩增技术通过人工数据点去扩展训练集 。 数据扩增技术的目的很明确:对于一个可靠的模型 , 即使样本受到轻微干扰 , 也应该将其预测为同一类别 。 尽管 DA 技术已经存在一些有效实践 , 但从理论上分析数据扩增技术的性能和局限性的工作 , 目前相对较少 。 Bishop 表明 , 噪声训练的预期等同于 Tikhonov 正则化 。 Wager 表明 , 训练广义线性模型并随机丢弃特征就相当于通 L2 正则化 。 Dao 使用马尔可夫过程来扩充数据集 , 将数据扩充研究定义为特征平均化和方差正则化 。
训练数据是空间里的一个点 , 决策边界是一个超平面 , 所以两者之间的存在一个距离 。 一个决策边界是将空间的点分成两个部分 , 每个部分有一个点离决策边界最近 , 两部分最近的距离的长度称为 margin 距离 。 为了分析数据扩增技术如何影响分类器的 margin 距离 , 我们采取了不同的方法 。 我们聚焦于分析 margin 距离间隔 , 因为它既可以表示模型的泛化程度 , 又可以体现模型的鲁棒性 。 重点在于 , 我们需要分析增加多少数据 , 才能保证任何风险最小化算法都能获得正的 margin'距离 。 就我们所知 , 目前尚无任何工作从 margin 距离的角度去分析数据扩增技术 。
1.1 贡献我们考虑以下经验风险最小化(ERM)问题:
文章插图
其中
文章插图
是训练集 xi∈Rd 是特征向量 , yi∈{-1 , +1}是它们的标签 。 F 是我们正在优化的分类器集合 , 而((f(x) , y)= 1 {f(x)= y}是 0/1 损失 , 量化了预测标签 f(x)与真实标签之间的差异 。 为了使模型
文章插图
具有更好的泛化程度和鲁棒性 , 我们经常需要具有较大 margin 距离的 ERM 解决方案 。 尽管可以通过对线性分类器进行正则化来强制明确边界距离 , 但对于通用分类器而言 , 要有效做到这一点仍然是一个充满挑战的问题 。 由于数据扩增在实践中需要具备更好的鲁棒性 , 因此我们提出以下问题:数据扩增可以保证非零 margin 距离吗?也就是说 , 我们是否可以使用扩增后的数据集 S , 使得对它应用任何 ERM , 输出分类器 A 都有一定的 margin 距离吗?下面提供了用于线性分类的示意图 。
文章插图
上图展现了线性可分离数据集 , 每个数据点在其自己的类别中 , 并且具有两个输入维度 。 如果我们希望为所有可行的线性分隔符(即所有线性 ERM)保证正 margin 距离 , 则需要使用其他数据点来扩充训练集 。 否则 , 将存在一个零边界距离的线性分隔符 。
A. 扩增数量下限
我们首先考虑线性可分离数据的线性分类问题 。 我们为扩充数据点的数量设定了下限 , 以确保扩充数据的任何线性分隔符相对于原始数据集都具有正的 margin 距离 。 我们发现 , 对于包含 d 个数据点的样本 , 至少需要扩增到 d + 1 个数据点才能达到正的 margin 距离 。 此外 , 有些策略仅用 d + 1 个扩增点就可以实现最佳的余量 。 但是 , 如果扩充点是由训练集的有界扰动形成的 , 则我们至少需要与真实训练点一样多的扩充数据点才能确保正 margin 距离 。
B. 随机扰动上限
实际上 , 许多数据扩增技术都采用随机扰动的方法 , 比如随机增加噪点数据 。作为分析的第一步 , 我们将球形随机噪声添加到原始训练数据来形成扩增数据集 。 我们具体量化了数据的尺寸 , 每个数据点的扩充数量以及最坏情况的 margin 距离 。 结果表明 , 如果随机噪点的范数与 margin 距离成正比 , 则扩增数据点的数量必须是指数的 , 才能确保最佳 margin 距离 。
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 中国|浅谈5G移动通信技术的前世和今生
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 速度|华为P50Pro或采用很吓人的拍照技术:液体镜头让对焦速度更快
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 视频社会生产力报告|视频社会雏形已成,绿厂或凭这技术抢占先机
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在