到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试( 二 )

这样就可以量化出每个方案的 ROI 。
第 3 个问题 , 长期来看哪个更好?
这里就要考虑新奇效应的问题了 , 一般在实验上线前期 , 用户因为新鲜感 , 效果可能都不错 , 因此在做评估的时候 , 需要观测指标到稳定态后 , 再做评估 。
到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试文章插图
例如有的时候出现 , 刚刚上线前期 , 实验组效果更好 , 但是经过一段时间 , 用户的新鲜感过去了 , 实验组的效果可能更差 , 因此 , 从长远收益来看 , 我们应该选择对照组 , 是实验组的新奇效应欺骗了我们 , 在做实验分析时 , 应剔除新奇效应的部分 , 待平稳后 , 再做评估
第 4 个问题 , 不同用户群体有差异吗?
很多情况下 , 对新用户可能实验组更好 , 老用户对照组更好;对年轻人实验组更好 , 中年人对照组更好 ,
作为数据分析师 , 分析实验结论时 , 还要关注用户群体的差异 。
实验结束实验结束后需要:

  • 反馈实验结论 , 包括直接效果(渗透、留存、人均时长等)、ROI
  • 充分利用实验数据 , 进一步探索分析不同用户群体 , 不同场景下的差异 , 提出探索性分析
  • 对于发现的现象 , 进一步提出假设 , 进一步实验论证
更高级的实验
对于长线业务 , 可能同时有数十个实验同时进行 , 不但对比每项小迭代的差异 , 同时对比专项对大盘的贡献量、部门整体对大盘的贡献量 , 这样就需要运用到了实验的层域管理模型 。
  • 对比每个产品细节迭代的结果
  • 对比每个专项在一个阶段的贡献
  • 对比整个项目在一个阶段的贡献

到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试文章插图
多个活动交集量化的实验设计作为数据分析师 , 多团队合作中 , 经常遇到多业务交集的问题 , 以我近期主要负责的春节活动为例 , 老板会问:
  • 春节活动-明星红包子活动贡献了多少 DAU?春节活动-家乡卡子活动贡献了多少 DAU?
  • 春节活动总共贡献了多少 DAU?
严谨一点 , 我们采用了 AB 实验的方式核算 , 最终可能会发现一个问题:春节活动各个子活动的贡献之和 , 不等于春节活动的贡献 , 为什么呢?
  • 有的时候 , 活动 A 和活动 B , 有着相互放大的作用 , 这个时候就会 1+1 > 2
  • 还有的时候 , 活动 A 和活动 B , 本质上是在做相同的事情 , 这个时候就会 1+1 < 2
这个时候 , 我们准确量化春节活动的贡献 , 就需要一个【贯穿】所有活动的对照组 , 在 AB 实验系统中通俗称作贯穿层 。
到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试文章插图
(说明:实验中 , 各层的流量是正交的 , 简单理解 , 例如 , A 层的分流采用用户 ID 的倒数第 1 位 , B 层的分流采用用户 ID 的倒数第 2 位 , 在用户 ID 随机的情况下 , 倒数第 1 位和倒数第 2 位是没有关系的 , 也称作相互独立 , 我们称作正交 。 当然 , AB Test 实验系统真实的分流逻辑 , 是采用了复杂的 hash 函数、正交表 , 能够保证正交性 。 )
这样分层后 , 我们可以按照如下的方式量化贡献:
  • 计算春节活动的整体贡献:实验填充层-填充层填充组 VS 贯穿层-贯穿层填充组
  • 计算活动 A 的贡献:活动 A 实验层中 , 实验组 VS 对照组
  • 计算活动 B 的贡献:活动 B 实验层中 , 实验组 VS 对照组
业务迭代的同时 , 如何与自身的过去比较上面谈到了【贯穿层】的设计 , 贯穿层的设计其实不但可以应用在多个活动的场景 , 有些场景 , 我们的业务需要和去年或上个季度的自身对比 , 同时业务还不断在多个方面运用 AB Test 迭代 。
到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试文章插图
类似与上面这种层次设计 , 在推荐系统中较为常见 , 在某一些产品或系统中 , 贯穿层不能够完全没有策略 , 那么采用去年或上个季度的策略 , 代表着基准值 , 从而量化新一个周期的增量贡献
我们可以量化: