到底什么是A/B测试?腾讯数据分析师手把手教你设计A/B测试( 二 )
这样就可以量化出每个方案的 ROI 。
第 3 个问题 , 长期来看哪个更好?
这里就要考虑新奇效应的问题了 , 一般在实验上线前期 , 用户因为新鲜感 , 效果可能都不错 , 因此在做评估的时候 , 需要观测指标到稳定态后 , 再做评估 。
文章插图
例如有的时候出现 , 刚刚上线前期 , 实验组效果更好 , 但是经过一段时间 , 用户的新鲜感过去了 , 实验组的效果可能更差 , 因此 , 从长远收益来看 , 我们应该选择对照组 , 是实验组的新奇效应欺骗了我们 , 在做实验分析时 , 应剔除新奇效应的部分 , 待平稳后 , 再做评估
第 4 个问题 , 不同用户群体有差异吗?
很多情况下 , 对新用户可能实验组更好 , 老用户对照组更好;对年轻人实验组更好 , 中年人对照组更好 ,
作为数据分析师 , 分析实验结论时 , 还要关注用户群体的差异 。
实验结束实验结束后需要:
- 反馈实验结论 , 包括直接效果(渗透、留存、人均时长等)、ROI
- 充分利用实验数据 , 进一步探索分析不同用户群体 , 不同场景下的差异 , 提出探索性分析
- 对于发现的现象 , 进一步提出假设 , 进一步实验论证
对于长线业务 , 可能同时有数十个实验同时进行 , 不但对比每项小迭代的差异 , 同时对比专项对大盘的贡献量、部门整体对大盘的贡献量 , 这样就需要运用到了实验的层域管理模型 。
- 对比每个产品细节迭代的结果
- 对比每个专项在一个阶段的贡献
- 对比整个项目在一个阶段的贡献
文章插图
多个活动交集量化的实验设计作为数据分析师 , 多团队合作中 , 经常遇到多业务交集的问题 , 以我近期主要负责的春节活动为例 , 老板会问:
- 春节活动-明星红包子活动贡献了多少 DAU?春节活动-家乡卡子活动贡献了多少 DAU?
- 春节活动总共贡献了多少 DAU?
- 有的时候 , 活动 A 和活动 B , 有着相互放大的作用 , 这个时候就会 1+1 > 2
- 还有的时候 , 活动 A 和活动 B , 本质上是在做相同的事情 , 这个时候就会 1+1 < 2
文章插图
(说明:实验中 , 各层的流量是正交的 , 简单理解 , 例如 , A 层的分流采用用户 ID 的倒数第 1 位 , B 层的分流采用用户 ID 的倒数第 2 位 , 在用户 ID 随机的情况下 , 倒数第 1 位和倒数第 2 位是没有关系的 , 也称作相互独立 , 我们称作正交 。 当然 , AB Test 实验系统真实的分流逻辑 , 是采用了复杂的 hash 函数、正交表 , 能够保证正交性 。 )
这样分层后 , 我们可以按照如下的方式量化贡献:
- 计算春节活动的整体贡献:实验填充层-填充层填充组 VS 贯穿层-贯穿层填充组
- 计算活动 A 的贡献:活动 A 实验层中 , 实验组 VS 对照组
- 计算活动 B 的贡献:活动 B 实验层中 , 实验组 VS 对照组
文章插图
类似与上面这种层次设计 , 在推荐系统中较为常见 , 在某一些产品或系统中 , 贯穿层不能够完全没有策略 , 那么采用去年或上个季度的策略 , 代表着基准值 , 从而量化新一个周期的增量贡献
我们可以量化:
- 每个小迭代对整个系统的贡献:实验层中的实验组 VS 对照组
- 周期内 , 系统全部迭代与上个周期的比较:实验填充层 VS 贯穿层 1(或贯穿层 2)
- 同时 , 可以量化去年策略的自然增长或下降 , 以衡量旧有系统是否具有长期的适用性(作为系统设计者 , 更应鼓励设计具有长期适应性的系统):贯穿层 1(上个季度的策略)VS 贯穿层 2(去年的策略)
- 看不上|为什么还有用户看不上华为Mate40系列来看看内行人怎么说
- 麒麟|荣耀新款,麒麟810+4800万超清像素,你还在犹豫什么呢?
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 行业|现在行业内客服托管费用是怎么算的
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 再次|华为Mate40Pro干瞪眼?P50再次曝光,这次是真香!