到底什么是A/B测试？腾讯数据分析师手把手教你设计A/B测试分享下鹅厂数据分析师jiangel

分享下鹅厂数据分析师 jiangeliu(刘健阁) 是如何设计一个 A/B test 的。
实验设计AB Test 实验一般有 2 个目的：

判断哪个更好：例如，有 2 个 UI 设计，究竟是 A 更好一些，还是 B 更好一些，我们需要实验判定
计算收益：例如，最近新上线了一个直播功能，那么直播功能究竟给平台带来了多少额外的 DAU ，多少额外的使用时长，多少直播以外的视频观看时长等

我们一般比较熟知的是上述第 1 个目的，对于第 2 个目的，对于收益的量化，计算 ROI ，往往对数据分析师和管理者非常重要。
对于一般的 ABTest 实验，其实本质上就是把平台的流量均匀分为几个组，每个组添加不同的策略，然后根据这几个组的用户数据指标，例如：留存、人均观看时长、基础互动率等等核心指标，最终选择一个最好的组上线。
实验的几个基本步骤一般如下：

文章插图
流量分配实验设计时有两个目标：

希望尽快得到实验结论，尽快决策
希望收益最大化，用户体验影响最小

因此经常需要在流量分配时有所权衡，一般有以下几个情况：

不影响用户体验：如 UI 实验、文案类实验等，一般可以均匀分配流量实验，可以快速得到实验结论
不确定性较强的实验：如产品新功能上线，一般需小流量实验，尽量减小用户体验影响，在允许的时间内得到结论
希望收益最大化的实验：如运营活动等，尽可能将效果最大化，一般需要大流量实验，留出小部分对照组用于评估 ROI

文章插图
根据实验的预期结果，大盘用户量，确定实验所需最小流量，可以通过一个网站专门计算所需样本量：

以次日留存率为例，目前大盘次日留存率 80% ，预期实验能够提升 0.2pp（这里的留存率可以转换为点击率、渗透率等等，只要是比例值就可以，如果估不准，为了保证实验能够得到结果，此处可低估，不可高估，也就是 0.2pp 是预期能够提升的最小值）
网站计算，最少样本量就是 63W（这里的最少样本量，指的是最少流量实验组的样本量）
如果我们每天只有 5W 的用户可用于实验（5W 的用户，指最少流量实验组是 5W 用户）， 63/ 5 = 13 天，我们需要至少 13 天才能够得到实验结论

文章插图
如果我们预期提升的指标是人均时长、人均 VV 等，可能就比较复杂了，我们需要运用 t 检验反算，需要的样本量：

文章插图
实验效果我们以一个稍复杂点的运营活动实验为例，活动有方案 1、方案 2 ，同时为了量化 ROI ，对照组没有运营活动。

文章插图
需要回答几个问题

方案 1 和方案 2 ，哪个效果更好？
哪个 ROI 更高？
长期来看哪个更好？
不同群体有差异吗？

第 1 个问题，方案 1 和方案 2 ，哪个效果更好？
还是要运用假设检验，对于留存率、渗透率等漏斗类指标，采用卡方检验：

文章插图
对于人均时长类等均值类指标，采用t 检验：

文章插图
通过上假设检验，如果结论置信，我们就能够得到方案 1 和方案 2 在哪项指标更好（有显著性差异），对于不置信的结论，尽管方案 1 和方案 2 的指标可能略有差异，但可能是数据正常波动产生。
第 2 个问题，哪个 ROI 更高？
一般有活动相比无活动，留存、人均时长等各项指标均会显著，我们不再重复上述的假设检验过程。
对于 ROI 的计算，成本方面，每个实验组成本可以直接计算，对于收益方面，就要和对照组相比较，假定以总日活跃天（即 DAU 按日累计求和）作为收益指标，需要假设不做运营活动， DAU 会是多少，可以通过对照组计算，即：

实验组假设不做活动日活跃天 = 对照组日活跃天 * （实验组流量 / 对照组流量）
实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天
- 上一页
- 1
- 2
- 3
- 下一页