到底什么是A/B测试？腾讯数据分析师手把手教你设计A/B测试( 二 ) 分享下鹅厂数据分析师jiangel

这样就可以量化出每个方案的 ROI 。
第 3 个问题，长期来看哪个更好？
这里就要考虑新奇效应的问题了，一般在实验上线前期，用户因为新鲜感，效果可能都不错，因此在做评估的时候，需要观测指标到稳定态后，再做评估。
文章插图
例如有的时候出现，刚刚上线前期，实验组效果更好，但是经过一段时间，用户的新鲜感过去了，实验组的效果可能更差，因此，从长远收益来看，我们应该选择对照组，是实验组的新奇效应欺骗了我们，在做实验分析时，应剔除新奇效应的部分，待平稳后，再做评估
第 4 个问题，不同用户群体有差异吗？
很多情况下，对新用户可能实验组更好，老用户对照组更好；对年轻人实验组更好，中年人对照组更好，
作为数据分析师，分析实验结论时，还要关注用户群体的差异。
实验结束实验结束后需要：

反馈实验结论，包括直接效果（渗透、留存、人均时长等）、ROI
充分利用实验数据，进一步探索分析不同用户群体，不同场景下的差异，提出探索性分析
对于发现的现象，进一步提出假设，进一步实验论证

更高级的实验
对于长线业务，可能同时有数十个实验同时进行，不但对比每项小迭代的差异，同时对比专项对大盘的贡献量、部门整体对大盘的贡献量，这样就需要运用到了实验的层域管理模型。

对比每个产品细节迭代的结果
对比每个专项在一个阶段的贡献
对比整个项目在一个阶段的贡献

文章插图
多个活动交集量化的实验设计作为数据分析师，多团队合作中，经常遇到多业务交集的问题，以我近期主要负责的春节活动为例，老板会问：

春节活动-明星红包子活动贡献了多少 DAU？春节活动-家乡卡子活动贡献了多少 DAU？
春节活动总共贡献了多少 DAU？

严谨一点，我们采用了 AB 实验的方式核算，最终可能会发现一个问题：春节活动各个子活动的贡献之和，不等于春节活动的贡献，为什么呢？

有的时候，活动 A 和活动 B ，有着相互放大的作用，这个时候就会 1+1 > 2
还有的时候，活动 A 和活动 B ，本质上是在做相同的事情，这个时候就会 1+1 < 2

这个时候，我们准确量化春节活动的贡献，就需要一个【贯穿】所有活动的对照组，在 AB 实验系统中通俗称作贯穿层。

文章插图
（说明：实验中，各层的流量是正交的，简单理解，例如， A 层的分流采用用户 ID 的倒数第 1 位， B 层的分流采用用户 ID 的倒数第 2 位，在用户 ID 随机的情况下，倒数第 1 位和倒数第 2 位是没有关系的，也称作相互独立，我们称作正交。当然， AB Test 实验系统真实的分流逻辑，是采用了复杂的 hash 函数、正交表，能够保证正交性。）
这样分层后，我们可以按照如下的方式量化贡献：

计算春节活动的整体贡献：实验填充层-填充层填充组 VS 贯穿层-贯穿层填充组
计算活动 A 的贡献：活动 A 实验层中，实验组 VS 对照组
计算活动 B 的贡献：活动 B 实验层中，实验组 VS 对照组

业务迭代的同时，如何与自身的过去比较上面谈到了【贯穿层】的设计，贯穿层的设计其实不但可以应用在多个活动的场景，有些场景，我们的业务需要和去年或上个季度的自身对比，同时业务还不断在多个方面运用 AB Test 迭代。

文章插图
类似与上面这种层次设计，在推荐系统中较为常见，在某一些产品或系统中，贯穿层不能够完全没有策略，那么采用去年或上个季度的策略，代表着基准值，从而量化新一个周期的增量贡献
我们可以量化：

每个小迭代对整个系统的贡献：实验层中的实验组 VS 对照组
周期内，系统全部迭代与上个周期的比较：实验填充层 VS 贯穿层 1（或贯穿层 2）
同时，可以量化去年策略的自然增长或下降，以衡量旧有系统是否具有长期的适用性（作为系统设计者，更应鼓励设计具有长期适应性的系统）：贯穿层 1（上个季度的策略）VS 贯穿层 2（去年的策略）
- 上一页
- 1
- 2
- 3
- 下一页