1.2 提出假设,选择指标在上一步中,我们已经明确了X问题,即数据分析的目标 。接下来,我们将围绕X问题,提出该问题的结论假设,并建立模型(选择衡量指标)来验证假设是否成立 。
1.2.1 提出假设
【如何做好数据分析做好数据分析的6步曲】针对有预设的问题,假设可以直接来源于问题,如方案A有助于提升转化率 。对于没有实现预设的问题,则需要我们围绕问题进行穷举可能的假设,如页面E的跳失率急剧下降,可能原因有:
- 流量来源的用户质量变差了;
- 流量入口放错了信息,导致用户进入后预期不符;
- 首屏商品选品问题;
- 首屏信息设计用户无法理解/无吸引力;
- 页面加载出现问题等 。
不同类型的假设,衡量方式会不一样,有些假设可能还需要定性调研配合来验证 。在电商定量数据范围来看,可以参考以下思路:
- 关于流量的假设,可选取流量相关的指标如浏览UV/PV、各渠道流量来源UV/PV 。
- 关于销售类的假设,可选取订单相关的指标,如引入订单金额、引入订单数量、转化率、UV价值 。
- 关于用户行为的假设,可以选取页面操作相关的指标,如点击UV/PV、页面点击率、曝光点击率、人均点击次数、浏览深度等 。
- 关于用户人群的假设,可以选取用户画像数据,如:性别、年龄、城市线级、新老用户等,且可同时结合页面操作数据进行细化人群行为分析 。
1.3.1 数据采集
各平台的原始数据正在进入指数级爆炸的阶段,仅从电商平台来看,各类数据指标都非常的多而复杂 。在采集之前的一个阶段,必不可少的是与数据产品或开发人员明确:
- 数据指标的计算规则 。
- 需要的数据指标列表(包括对应的时间段、平台端),防止等到要提数的时候结果发现没有数据 或者数据计算方式不合理 。
数据整理的第一步是数据清洗,原始的数据表往往含有不少脏数据,如测试数据、异常值、空缺等等,直接用来计算分析可能会导致数据结论有偏差或无法计算 。数据清洗就是要将原始数据表处理成可方便计算分析的干净整洁的数据表 。
主要包括:
- 删除重复数据,可通过Excel的COUNTIF函数或者筛选排序来进行操作;
- 检查数据格式,原始数据里可能会有特殊格式如N/A、####、性别为数值等情况,可根据实际情况判断如何处理;
- 检查异常数据,可以着重关注极小值和极大值,小数点,负数等,明显不符合实际情况的,可以排查原因,选择删除或重新提取数据;
- 处理缺失数据,这个最常见的情况,一般情况可接受的标准是缺失值在10%以下,超过就需要酌情看是否有办法重新提取了;
- 检查数据逻辑错误,可以抽样选取数据进行计算检查,如计算页面点击率=点击UV/页面浏览UV,假如算出页面点击率大于100%,就可能是有数据异常了,需要重新排查指标统计方式是否正确等 。
数据整理好之后,可以进行初始的数据加工了 。因为原始数据可能并不符合我们的分析需求,比如:我们想看的是某模块的数据,但原始数据是拆成每一个点击位的数据,我们就需要把每个点击位的数据进行求和等操作,转化成模块数据 。
还有一些常见的情况是利用标准的行业计算公式,将某几个指标进行数理计算得到另一个指标,如单UV价值=GMV/页面UV、订单转化率=引入订单数/页面UV、人均点击次数=点击PV/点击UV……通过这一步的操作,我们将能初步看到要验证假设需要的一些基本指标的数据了 。
1.4 数据分析数据整理完之后就到了真正的重头戏——数据分析了,也是含金量最高的一步 。做数据分析有一个非常基础但又及其重要的思路,那就是对比,基本上90%以上的分析都离不开对比 。
沿着2.2假设及衡量指标的思路,我们有了一个假设“X策略可以提升A页面转化率”,且定义了此假设的衡量指标为“页面转化率”,当我们拿到页面转化率指标后,转化率需要达到多少才算好呢?是否是因为X策略带来的提升,还是可能是时间规律上的自然上涨?这时就可以通过对比来分析了 。