数据分析师必须知道的项目问题

根据我在工作和领导数据分析项目组方面的经验 , 有3个标准可以定义一个好的项目 。 这些是:
1.明确目标 。 如果你不理解问题 , 就无法解决 。 我们获得的大部分时间都是由普通人设计的 , 需求通常是含糊的 , 有时是基于幻想的 。 这是由于总体上缺乏有项目经验所致 。 大多数普通人既不了解数据分析也不了解项目概念 , 并且很难为他们要最终模型做什么提出清晰的规范 。 这会导致很多数据分析师不知道自己要的是什么 。 因此 , 为什么这是我的第一标准 。 在开始编写代码或寻找数据之前 , 你应该做的第一件事是定义项目的目标以及应该实现的目标 , 以避免与不良沟通有关的所有麻烦 。
数据分析师必须知道的项目问题文章插图
2.明确定义的成功指标 。 如果你是数据分析师 , 则可以将其视为损失函数 。 这基本上就是模型应具有的准确性 。 由于准确性和均方误差之类的东西是超级抽象的项目经理 , 因此客户通常很难决定如何衡量数据分析/ ML项目的成功 。 通常 , 你会听到非机器学习人员要求更高的准确性 , 而实际上诸如召回率之类的其他指标可能更重要 。 还需要对它们进行很好的定义 , 因为你可能最终出于错误的目的优化和构建模型 。
【数据分析师必须知道的项目问题】3.足够的高质量数据 。 我不记得有多少次客户来找我 , 要求我建立一个没有数据或数百个样本的模型 。 在大多数情况下 , 如果你从未从事过数据分析项目的工作 , 而这实际上很难决定所需的数据量 , 这并不是客户的错 。 对于数据分析专家而言 , 有时甚至对你公司的非技术经理而言更是困难重重 。 数据的重要性绝对不可低估 , 因为这是使模型变得更好的秘密所在 。 太少了会使你的模型平淡无奇 , 而太多的无目的项目会使企业方对你失去信心 。