用户|如何通过数据找到影响用户留存的关键因素( 二 )


2)基于各类树模型
各类树(决策树、随机森林、GBDT等)模型训练结束后,可以输出模型所使用的特征的相对重要度,可以解释哪些因素是对预测有关键影响,因此可以帮助我们快速找出对用户留存影响度高的关键因素。
① 特征选择

  • 用户画像类特征(年龄、性别、城市、手机品牌、手机型号、平台角色、是否安装竞品、竞品APP安装数量、新增渠道类型);
  • 活跃类标签(近 7 天APP启动次数、近 7 天APP使用时长、近 7 天活跃天数、首次活跃距今天数、末次活跃距今天数);
  • 消费类行为标签(近 7 天内容曝光次数、近 7 天内容点击次数、近 7 天内容播放时长);
  • 互动类行为标签(近 7 天点赞次数、关注次数、评论次数、转发次数、收藏次数);
  • 付费类行为标签(近 7 天打赏主播次数、打赏金额、充值金额);
  • 金币激励类标签(近 7 天金币提现金额、签到次数、得金币数、访问福利中心页面次数)。
② 正负样本构建:先锁定特定日期范围(比如 2021.07.01-2021.07.07)的活跃用户,根据其是否在后续7天(2021.07.08~2021.07.14))活跃来划分正负样本。
  • 正样本:留存用户,即前7-14日(2021.07.01-2021.07.07)启动过APP,近7日(2021.07.08~2021.07.14)启动过APP的用户;
  • 负样本:留存用户,即前7-14日(2021.07.01-2021.07.07)启动过APP,但近7日(2021.07.08~2021.07.14)未启动过APP的用户。
③ 构建模型时的注意点
  • 正负样本的样本数尽量保持在1:1,避免正样本数量过少导致学习不到正样本的信息,或者负样本数量过大影响训练速度;
  • 模型预测效果不佳时,可以尝试使用多种模型,比如GBDT+LR、XBoost等;
  • 区分不同类型用户分别构建模型,比如区分新老用户、创作者用户和消费型用户、高低中频次用户等。

用户|如何通过数据找到影响用户留存的关键因素
文章插图
根据上图(具体数值均为模拟数据,请勿参考)可以看出,近7日活跃天数、APP启动次数、访问时长、以及播放短视频次数等行为指标可以作为留存的关键指标。
④ 特征间的相关性分析
通过对特征间的相关性系数分析发现, APP 启动次数和 访问 APP 时长指标之间存在很强的相关性,可以剔除其中一个指标。
用户|如何通过数据找到影响用户留存的关键因素
文章插图
至此,我们可以选择7天内APP活跃天数、启动APP次数、播放短视频次数作为影响留存的关键指标。
根据这些指标,我们可以设计新人激励体系,引导用户尽可能地多完成关键行为。比如新用户激活后登录APP、播放视频,会有积分或者金币等形式的激励,该激励活动以 Push 或者站内弹窗等形式传递到用户。
但是激励活动的具体规则,比如播放视频次数在7天达到多少,才能给到激励呢?我们同样可以基于数据给到建议。比如观察第一个7天内完成不同播放次数的用户,在下一个周期的留存率,找到留存率变化的拐点(边际提升幅度最小的点)作为激励规则的临界值。
用户|如何通过数据找到影响用户留存的关键因素
文章插图
三、留存关键因素的因果性验证相关性不等于因果性,因果性的检验必需通过设计AB实验验证,并量化策略的增量效果。
比如对于金币激励策略,可以抽取50%新用户作为对照组用户,且对照组用户无激励活动触达;50%新用户的实验组,则通过push或者站内弹窗触达用户。观测对比两组用户在未来7天的留存率,并核算delta ROI(delta 活跃人数/金币折算),以衡量策略的效果。
鉴于网上AB实验如何开展以及如何评估的文章较多,该部分不再具体展开叙述。
总结本文介绍了用户留存相关的通用分析方法,希望能够给大家带来一些新的认识。但限于笔者自身知识和能力水平限制,本文难免会有考虑不周全之处,如有不同见解,希望大家可以一起讨论。
本文由 @郝笑笑 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于 CC0 协议