阿里|阿里/网易/汽车之家画像标签体系( 二 )


2)行为标签
3)偏好标签
包含出行购物、手机数码、家装家居、教育公益、文化娱乐、新闻资讯、金融理财、游戏竞技、动漫影视、明星艺人等维度
4)预测标签
包含利用算法进行预测生成的标签,包含是否出行、是否买车等标签。
注意:

  • 标签的枚举值十分重要,业务分析过程中很容易出现枚举值的偏差,不符合实际业务逻辑;
  • 注意标签之间的冲突,如年龄15岁,学历却是博士或者有小孩。
2. 标签计算预测类标签案例:性别,主要包含三种方案:
  • 标签传播:根据用户在各个业务场景,如母婴商品点击行为,进行item标记,构建user-item的兴趣网络进行 Graph Embedding,最后进行分类,预测用户的性别。
  • 语义分析:利用NLP算法对用户昵称进行语义分析
  • 自行填写:利用业务属性自行填写的内容进行判断,此处需对数据质量进行过滤,排除如生日为1990-01-01的参数异常值信息。

阿里|阿里/网易/汽车之家画像标签体系
文章插图
基于上述三类算法特征结果集,对模型进行融合,然后对用户的性别进行预测,其准确率在0.6以上。
注意:需要突破的地方在于特征的稀疏性,因为ID-mapping打通后,数据覆盖率仅20%左右,严重影响了模型的整体效果。
三、汽车之家用户画像的构建就是把用户标签分列到不同的类里面,这些类都是什么,彼此之间的联系,就构成了标签体系。
1. 按用途分类1)人口属性
用户自然属性、用户会员、用户所属年代、用户价值登记、是否增换购用户、用户分群、UVN-B用户分群、用户分层、用户流失预警。
阿里|阿里/网易/汽车之家画像标签体系
文章插图
2)网络属性
用户APP设备信息、用户PC设备信息、用户活跃时段、用户平台偏好、用户活跃类型。
3)内容兴趣偏好
业务类型偏好、内容分类标签、用户关注作者偏好、用户产品偏好、用户显式负反馈、用户论坛偏好、车友圈偏好、用户兴趣栏目。
4)车兴趣偏好
用户短期兴趣车偏好、用户兴趣车偏好、配置偏好、用户颜色偏好、用户购车目的、用户置换偏好、用户推荐有车、二手车用户偏好、用户购车意向、用户新旧偏好、用户购车阶段、用户有车标签、用户兴趣集中度、用户能源偏好、用户生产方式偏好。
5)金融画像
分期购车意向度、用户购买力、二手车用户购买力、用户汽车价格偏好、用户经济属性、增换购用户预测线索。
6)场景画像
用户地理位置。
2. 按统计方式分类1)统计类标签
统计类标签,通过业务规则,将业务问题转化为数据口径实现;如收藏列表、 搜索关键词、保险到期时间、是否下过线索、30天内访问xx次等。
2)兴趣类标签
兴趣类标签,基于兴趣迁移模型构建用户标签。综合考虑特征、特征权重、距今时间、行为次数等因素,用户兴趣标签构建公式如下:
用户兴趣标签=行为类型权重*时间衰减*行为次数
  • 特征:需要结合业务选择,如浏览、搜索、线索、对比、互动、点击、有车等行为。
  • 权重:用户在平台上发生的行为具体到用户标签层面有着不同的行为权重,一般而言,行为发生的成本越高,权重越大;可以由业务人员确定,也可以采用TF-IDF技术分析得出。
  • 时间衰减:用户行为收时间的影响不断衰减,距离现在越远,对用户兴趣的影响越低,这里采用牛顿冷却定律的思想拟合衰减系数,衰减周期结合业务制定。
  • 行为次数:在固定时间周期内行为发生的次数越多,兴趣倾向越重。
3)模型类标签
基于机器学习方法进行数据建模预测用户的标签,这类标签在标签体系中占比较少,其实现难度高,开发成本高。
例如:
  • 是否有车:基于RF+LR模型实现
  • 常驻地:基于GPS聚类获取,采用DBSCAN
  • 购车转化:GBDT
  • 用户分群:KMENAS聚类产生
3. 按时效分类从数据时效上,可分为离线画像和实时画像。
离线与实时采用的构建思想相同,不同之处在于:
  • 离线画像:描述用户长期的习惯;
  • 实时画像:描述用户当下的兴趣,会随时间的改变而发生变更;
四、总结各大公司的标签分类不同,现市面上有三种常用的标签分类方式: