产业气象站 机器学习项目必备:端到端机器学习项目开发过程的任务表

全文共2390字 , 预计学习时长6分钟
产业气象站 机器学习项目必备:端到端机器学习项目开发过程的任务表
文章图片
图源:unsplash
在创建具有重大意义的项目时 , 我会记录所有在其他人身上学到的以及自己在工作中领悟到的东西 。 这对我来说是必须的 , 因为需要处理一个项目中的许多内容(争论、准备、问题、模型、微调等等) , 这容易让人忘记一些事情 。
任务列表能指导开发人员完成下一步 , 促使你检查每个任务是否已成功执行 。 有时候 , 我们很难找到出发点 , 任务表也可帮助开发人员从正确的来源中获取正确的信息(数据) , 以便建立关系并揭示相关的见解 。
最好的做法是让项目的每一部分都经过检查 。 正如阿图·葛文德在其《清单革命》(TheChecklistManifesto)中所说:“我们所知事物的数量和其复杂性已经超过了我们能正确、安全、可靠地传达其优点的能力范畴 。 ”
所以 , 看看这个简洁明了的项目任务表 , 它将帮你减少工作量 , 提高产出!
机器学习项目清单
在几乎每个机器学习项目中都必须执行8-10个步骤 , 其中一些步骤可以按顺序交替执行 。
1.从高层次的角度定义问题
为了理解和阐明问题的业务逻辑 , 任务表应该告知:
·问题的性质(有监督/无监督、分类/回归) 。
·可开发的解决方案类型 。
·应该使用哪些指标来衡量性能?
·机器学习是解决这个问题的正确方法吗?
·人工解决问题的方法 。
·问题的固有假设 。
2.识别数据源并获取数据
在大多数情况下 , 如果拥有数据 , 并且希望定义相关问题以更好地利用传入的数据 , 可以在第一步之前执行此步骤 。
基于问题的定义 , 我们需要确定数据的来源 , 可以是数据库、数据存储库、传感器等 。 对于要在生产中部署的应用程序 , 需通过开发数据管道来自动执行此步骤 , 以保持传入数据流入系统 。
·列出所需数据的来源和数量 。
·检查空间是否会成为一个问题 。
·检查你在使用数据上是否被授权 。
·获取数据并将其转换为可行的格式 。
·检查数据类型(文本、分类、数字、时间序列、图像) 。
·取一个样本用于最终测试 。
产业气象站 机器学习项目必备:端到端机器学习项目开发过程的任务表
文章图片
图源:unsplash
3.数据的初步探索
在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征 。 如果你有一个巨大的数据块 , 在该步骤中对其进行抽样 , 使分析更易于管理 。 应遵循以下步骤:
·使用jupyternotebook , 因为它们为研究数据提供了一个简单直观的界面 。
·确定目标变量 。
·识别特征类型(分类、数字、文本等) 。
·分析特征之间的相关性 。
·添加一些数据可视化 , 以便于解释每个特征对目标变量的影响 。
·记录发现 。
4.探索性数据分析 , 以准备数据
是时候通过定义用于数据转换、清理、特征选择/设计和缩放的函数来执行前一步的发现了 。
·编写函数 , 以转换数据 , 自动化处理即将出现的大批量数据 。
·编写函数 , 以清理数据(输入缺失值和处理异常值) 。
·编写函数 , 以选择并设计特征——删除冗余的特征、特征的格式转换以及和其他数学转换 。
·特征缩放——标准化特征 。
产业气象站 机器学习项目必备:端到端机器学习项目开发过程的任务表
文章图片
图源:unsplash
5.开发一个基准模型并探索其他模型以筛选最佳模型
创建一个非常基础的模型 , 作为所有其他复杂机器学习模型的基线 。 按照以下步骤:
·使用默认参数 , 训练一些常用的机器学习模型 , 如朴素贝叶斯、线性回归、支持向量机(SVM)等 。
·利用基线和其他模型 , 测量并比较每个模型的性能 。