过拟合|为什么机器学习模型在生产中会退化?
作者:Alexandre Gonfalonieri
编译:ronghuaiyang
导读当你把一个模型投入生产 , 它就开始退化 , 那这个时候 , 我们该怎么办呢 。
文章插图
由于意外的机器学习模型退化导致了几个机器学习项目的失败 , 我想分享一下我在机器学习模型退化方面的经验 。 实际上 , 有很多关于模型创建和开发阶段的宣传 , 而不是模型维护 。
假设机器学习解决方案一旦投入生产 , 无需维护就能完美运行 , 这是一个错误的假设 , 是企业将其首款人工智能(AI)产品推向市场时最常见的错误 。
当你把一个模型投入生产 , 它就开始退化
为什么机器学习模型会随着时间退化?
你可能已经知道 , 数据是成功的ML系统中最重要的组成部分 。 有一个相关的数据集为你提供准确的预测是一个很好的开始 , 但是这些数据提供准确的预测能持续多久呢?
在所有ML项目中 , 预测数据将如何随时间变化是关键 。 在一些项目中 , 我们低估了这一步 , 并且很难交付高精确度 。 在我看来 , 一旦你在PoC阶段之后对你的项目有信心 , 就应该制定一个计划来保持模型的更新 。
事实上 , 在开始使用它之前 , 你的模型的准确性将处于最佳状态 。 这一现象被称为概念漂移 , 尽管在过去的20年里学术界对其进行了大量的研究 , 但在行业最佳实践中它仍然经常被忽略 。
概念漂移: 表示模型试图预测的目标变量的统计特性随着时间以不可预见的方式发生变化 。 这导致了一些问题 , 因为随着时间的推移 , 预测的准确性会降低 。
文章插图
关键是 , 与计算器相比 , ML系统确实与现实世界交互 。 如果你使用ML来预测你的商店的需求和价格 , 你最好考虑一下本周的天气、日历和你的竞争对手在做什么 。
在概念漂移的情况下 , 我们对数据的解释随时间而变化 , 而数据的一般分布则没有变化 。 这导致最终用户将模型预测解释为随着时间的推移 , 对相同/相似数据的预测已经恶化 。 数据和概念都可能同时漂移 , 使问题更加棘手 。
我注意到 , 依赖于人类行为的模型可能特别容易退化 。 显然 , 风险可以根据项目的性质进行预测 。 在大多数情况下 , 必须制定定期的模型评审和再训练计划 。
此外 , 大多数模型只能捕获反映它们所看到的训练数据的模式 。 一个好的模型捕获了这些数据的基本部分 , 而忽略了不重要的部分 。 这创建了泛化的性能 , 但是任何模型都有一定程度的局限性 。
泛化: 指的是你的模型能够适当地适应新的、以前未见过的数据 , 这些数据来自于用于创建模型的相同分布 。 这与过拟合的概念密切相关 。 如果你的模型过拟合 , 那么它就不能很好地泛化 。
文章插图
泛化性能的最佳测试是查看模型在很长一段时间内对真实数据的执行情况 。 这个过程至少有两个主要元素 。
如何防止模型退化?
这听起来可能很明显 , 但是在部署之后监视ML性能非常重要 。 如果监视所有特征听起来像一项耗时的任务 , 那么我们可以监视一些关键特征 , 这些特征的数据分布变化可能会严重影响模型结果 。 我强烈建议你在投入生产之前为这个过程创建一个策略(通过识别正确的元素) 。
模型监控是一个持续的过程
如果你观察到模型性能下降 , 那么是时候重新构造模型设计了 。 棘手的部分不是刷新模型和创建一个重新训练的模型 , 而是考虑额外的特征 , 这些特征可能会提高模型的性能 , 使其更加可靠和准确 。
完成上述步骤之后 , 就可以使用新的或修改过的一组特征和模型参数重新创建模型了 。 在这一点上 , 我们的目标是确定一个最优的模型 , 该模型能够提供最佳的精度 , 这很好地概括了一些数据漂移 。
我注意到 , 在某些情况下 , 模型的重新创建并不能提高模型的性能 。 在这些情况下 , 分析模型出错的例子并寻找当前特征集之外的趋势可以帮助识别新特征 。 基于这些知识创建新特征可以给模型提供新的学习经验 。
手工学习
我们经常使用新数据来维护模型的一个解决方案是 , 使用我们最初用于构建模型的相同流程来训练和部署我们的模型 。 我们称之为手工学习 。 你可以想象这个过程会很耗时 。 我们多久对模型进行一次再训练?每周?每天吗?答案取决于你的ML应用 。
- 看不上|为什么还有用户看不上华为Mate40系列来看看内行人怎么说
- 看过明年的iPhone之后,现在下手的都哭了
- 网络覆盖|爱立信:2020年底,将有超过10亿人口获得5G网络覆盖
- 大乱斗|社区团购大乱斗
- 月入|一上网,感觉网上每个人都是月入过万,到底是错觉还是你out了?
- 制药领域|为什么AI制药这么火,为什么是现在?
- 手机|新鲜评测:让手机变身电脑的显示器见过没?只用4步即可完成!
- 控制|正弦电气科创板IPO过会,需说明与前员工设立或控制的经销商交易的原因及合理性
- 手机壳里头|为什么要在手机壳里面夹钱?10个有9个不懂,我才知道大有讲究
- 短视频|全球最火APP?抖音爆火背后离不开这几剂“猛药”为什么抖音能够这么火?