「」Amazon SageMaker在中国区上线,10分钟即可训练出机器学习模型( 二 )


「」Amazon SageMaker在中国区上线,10分钟即可训练出机器学习模型
本文插图
2、训练机器学习模型
Amazon SageMaker Experiments 组织、跟踪和评估训练运行情况
模型训练需要多次迭代和不断调优 , 包括尝试不同算法、超参数、调整选取的特征等 。 Amazon SageMaker Experiments 通过自动捕获输入参数、配置和结果将其存储为“实验”来帮助您管理迭代 。 还可以使用 Amazon SageMaker Studio 的可视化界面来浏览进行中的实验 , 与先前的实验及结果进行直观的比较与评估 。

「」Amazon SageMaker在中国区上线,10分钟即可训练出机器学习模型
本文插图
Amazon SageMaker Debugger 分析、检测和提醒与机器学习相关的问题
目前大多数机器学习流程是不透明的 , 而且训练模型所花费的时间较长 , 这些都是优化过程里的障碍 。 Amazon SageMaker Debbuger 能在训练期间自动捕获实时指标(如混淆矩阵和学习梯度等) , 让训练流程更加透明 , 最终提高模型精度 。 Amazon SageMaker Debugger 还会对常见问题发出告警并提供修复建议 。
AWS 是运行 TensorFlow 的最佳平台
AWS 提供了针对 TensorFlow 的优化 。 在 256 个 GPU 的集群扩展效率测试中 , AWS 优化的 Tensorflow 的扩展效率高达 90 % , 而默认的开源版本只有 65 % , 您可以通过 Amazon SageMaker 轻松开启高效的分布式训练 , 大大缩短训练时间 。
3、降低训练成本
Amazon SageMaker 支持基于托管的 Spot 竞价实例进行训练 , 训练成本降低最多可达 90 % , 并且 , Amazon SageMaker 支持周期性自动保存 checkpoint 以避免 Spot 实例中断引起的重复训练 。
一键式部署
Amazon SageMaker 支持一键部署模型 , 针对实时或批量数据生成预测 。 您可以跨多个可用区在自动扩展的实例上一键部署模型 , 在实现高冗余的同时无需做任何基础设施运维操作 。 Amazon SageMaker 自动管理计算实例和模型部署 , 并为 API 访问提供安全的 https 终端节点 。 您的应用程序只需要调用这个 API 接口就可以实现低延迟、高吞吐量的推理 。
Amazon SageMaker Model Monitor 让模型保持精确
由于训练数据的限制 , 模型部署之后的一个常见问题是 , 当目标变量随着时间推移发生改变 , 模型会不再适用 。 这个问题称为概念漂移(concept drift) 。 例如 , 经济环境变化可能会推动新利率出台 , 从而影响一个购房模型的预测结果 。 Amazon SageMaker Model Monitor 能够检测已部署模型的概念漂移(concept drift) , 并提供详细的警报 , 帮助确定问题根源 。 同时 , 通过 Amazon SageMaker 训练的模型会自动发送关键指标 , 您可以在 Amazon SageMaker Studio 中收集和查看这些指标 。 这个功能也为一些训练数据有限的场景提供了一个自动化机制 , 方便通过线上数据不断调优模型 , 而不必因为没有收集到足够数据或缺少自动化流程而推迟模型部署 。
与 Kubernetes 集成以进行编排和管理
许多机器学习团队的现有工作平台是基于运维团队搭建的 Kubernetes 平台的 , 而且有一些现有工作流编排和应用不易迁移 。 Amazon SageMaker 充分考虑到了这一点 , 并提供了 Kubernetes Operator 来与基于 Kubernetes 的工作流集成 。 也就是说 ,Amazon SageMaker 不仅是一个全面的机器学习平台 , 而且可以通过 Kubernetes Operator 与您现有的平台集成 。
Amazon SageMaker Neo 一次训练 , 多处运行
【「」Amazon SageMaker在中国区上线,10分钟即可训练出机器学习模型】Amazon SageMaker Neo 让机器学习模型训练一次即可在云上或者边缘计算节点中的不同硬件和系统环境中运行 。 Amazon SageMaker Neo 优化的模型运行速度最多可提高两倍 , 并且所消耗的资源不到典型机器学习模型的十分之一 。