到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试
分享下鹅厂数据分析师 jiangeliu(刘健阁) 是如何设计一个 A/B test 的 。
实验设计AB Test 实验一般有 2 个目的:
- 判断哪个更好:例如 , 有 2 个 UI 设计 , 究竟是 A 更好一些 , 还是 B 更好一些 , 我们需要实验判定
- 计算收益:例如 , 最近新上线了一个直播功能 , 那么直播功能究竟给平台带来了多少额外的 DAU , 多少额外的使用时长 , 多少直播以外的视频观看时长等
对于一般的 ABTest 实验 , 其实本质上就是把平台的流量均匀分为几个组 , 每个组添加不同的策略 , 然后根据这几个组的用户数据指标 , 例如:留存、人均观看时长、基础互动率等等核心指标 , 最终选择一个最好的组上线 。
实验的几个基本步骤一般如下:
文章插图
流量分配实验设计时有两个目标:
- 希望尽快得到实验结论 , 尽快决策
- 希望收益最大化 , 用户体验影响最小
- 不影响用户体验:如 UI 实验、文案类实验等 , 一般可以均匀分配流量实验 , 可以快速得到实验结论
- 不确定性较强的实验:如产品新功能上线 , 一般需小流量实验 , 尽量减小用户体验影响 , 在允许的时间内得到结论
- 希望收益最大化的实验:如运营活动等 , 尽可能将效果最大化 , 一般需要大流量实验 , 留出小部分对照组用于评估 ROI
文章插图
根据实验的预期结果 , 大盘用户量 , 确定实验所需最小流量 , 可以通过一个网站专门计算所需样本量:
- 以次日留存率为例 , 目前大盘次日留存率 80% , 预期实验能够提升 0.2pp(这里的留存率可以转换为点击率、渗透率等等 , 只要是比例值就可以 , 如果估不准 , 为了保证实验能够得到结果 , 此处可低估 , 不可高估 , 也就是 0.2pp 是预期能够提升的最小值)
- 网站计算 , 最少样本量就是 63W(这里的最少样本量 , 指的是最少流量实验组的样本量)
- 如果我们每天只有 5W 的用户可用于实验(5W 的用户 , 指最少流量实验组是 5W 用户) , 63/ 5 = 13 天 , 我们需要至少 13 天才能够得到实验结论
文章插图
如果我们预期提升的指标是人均时长、人均 VV 等 , 可能就比较复杂了 , 我们需要运用 t 检验反算 , 需要的样本量:
文章插图
实验效果我们以一个稍复杂点的运营活动实验为例 , 活动有方案 1、方案 2 , 同时为了量化 ROI , 对照组没有运营活动 。
文章插图
需要回答几个问题
- 方案 1 和方案 2 , 哪个效果更好?
- 哪个 ROI 更高?
- 长期来看哪个更好?
- 不同群体有差异吗?
还是要运用假设检验 , 对于留存率、渗透率等漏斗类指标 , 采用卡方检验:
文章插图
对于人均时长类等均值类指标 , 采用t 检验:
文章插图
通过上假设检验 , 如果结论置信 , 我们就能够得到方案 1 和方案 2 在哪项指标更好(有显著性差异) ,对于不置信的结论 , 尽管方案 1 和方案 2 的指标可能略有差异 , 但可能是数据正常波动产生 。
第 2 个问题 , 哪个 ROI 更高?
一般有活动相比无活动 , 留存、人均时长等各项指标均会显著 , 我们不再重复上述的假设检验过程 。
对于 ROI 的计算 , 成本方面 , 每个实验组成本可以直接计算 , 对于收益方面 , 就要和对照组相比较 , 假定以总日活跃天(即 DAU 按日累计求和)作为收益指标 , 需要假设不做运营活动 , DAU 会是多少 , 可以通过对照组计算 , 即:
- 实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)
- 实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天
- 看不上|为什么还有用户看不上华为Mate40系列来看看内行人怎么说
- 麒麟|荣耀新款,麒麟810+4800万超清像素,你还在犹豫什么呢?
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 行业|现在行业内客服托管费用是怎么算的
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 再次|华为Mate40Pro干瞪眼?P50再次曝光,这次是真香!