阿里|阿里/网易/汽车之家画像标签体系( 二 )
2)行为标签
3)偏好标签
包含出行购物、手机数码、家装家居、教育公益、文化娱乐、新闻资讯、金融理财、游戏竞技、动漫影视、明星艺人等维度
4)预测标签
包含利用算法进行预测生成的标签,包含是否出行、是否买车等标签。
注意:
- 标签的枚举值十分重要,业务分析过程中很容易出现枚举值的偏差,不符合实际业务逻辑;
- 注意标签之间的冲突,如年龄15岁,学历却是博士或者有小孩。
- 标签传播:根据用户在各个业务场景,如母婴商品点击行为,进行item标记,构建user-item的兴趣网络进行 Graph Embedding,最后进行分类,预测用户的性别。
- 语义分析:利用NLP算法对用户昵称进行语义分析
- 自行填写:利用业务属性自行填写的内容进行判断,此处需对数据质量进行过滤,排除如生日为1990-01-01的参数异常值信息。
文章插图
基于上述三类算法特征结果集,对模型进行融合,然后对用户的性别进行预测,其准确率在0.6以上。
注意:需要突破的地方在于特征的稀疏性,因为ID-mapping打通后,数据覆盖率仅20%左右,严重影响了模型的整体效果。
三、汽车之家用户画像的构建就是把用户标签分列到不同的类里面,这些类都是什么,彼此之间的联系,就构成了标签体系。
1. 按用途分类1)人口属性
用户自然属性、用户会员、用户所属年代、用户价值登记、是否增换购用户、用户分群、UVN-B用户分群、用户分层、用户流失预警。
文章插图
2)网络属性
用户APP设备信息、用户PC设备信息、用户活跃时段、用户平台偏好、用户活跃类型。
3)内容兴趣偏好
业务类型偏好、内容分类标签、用户关注作者偏好、用户产品偏好、用户显式负反馈、用户论坛偏好、车友圈偏好、用户兴趣栏目。
4)车兴趣偏好
用户短期兴趣车偏好、用户兴趣车偏好、配置偏好、用户颜色偏好、用户购车目的、用户置换偏好、用户推荐有车、二手车用户偏好、用户购车意向、用户新旧偏好、用户购车阶段、用户有车标签、用户兴趣集中度、用户能源偏好、用户生产方式偏好。
5)金融画像
分期购车意向度、用户购买力、二手车用户购买力、用户汽车价格偏好、用户经济属性、增换购用户预测线索。
6)场景画像
用户地理位置。
2. 按统计方式分类1)统计类标签
统计类标签,通过业务规则,将业务问题转化为数据口径实现;如收藏列表、 搜索关键词、保险到期时间、是否下过线索、30天内访问xx次等。
2)兴趣类标签
兴趣类标签,基于兴趣迁移模型构建用户标签。综合考虑特征、特征权重、距今时间、行为次数等因素,用户兴趣标签构建公式如下:
用户兴趣标签=行为类型权重*时间衰减*行为次数
- 特征:需要结合业务选择,如浏览、搜索、线索、对比、互动、点击、有车等行为。
- 权重:用户在平台上发生的行为具体到用户标签层面有着不同的行为权重,一般而言,行为发生的成本越高,权重越大;可以由业务人员确定,也可以采用TF-IDF技术分析得出。
- 时间衰减:用户行为收时间的影响不断衰减,距离现在越远,对用户兴趣的影响越低,这里采用牛顿冷却定律的思想拟合衰减系数,衰减周期结合业务制定。
- 行为次数:在固定时间周期内行为发生的次数越多,兴趣倾向越重。
基于机器学习方法进行数据建模预测用户的标签,这类标签在标签体系中占比较少,其实现难度高,开发成本高。
例如:
- 是否有车:基于RF+LR模型实现
- 常驻地:基于GPS聚类获取,采用DBSCAN
- 购车转化:GBDT
- 用户分群:KMENAS聚类产生
离线与实时采用的构建思想相同,不同之处在于:
- 离线画像:描述用户长期的习惯;
- 实时画像:描述用户当下的兴趣,会随时间的改变而发生变更;
- 按用途分类,可分为基础信息、用户行为、业务偏好、场景标签;
- 按统计方式分类,可分为事实类标签、规则类标签、预测类标签;
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 自动驾驶汽车|海外|自动驾驶无法可依?美国多个团体联合发布自动驾驶立法大纲
- 车辆|魔道之争,自主驾驶汽车会不会变成犯罪分子的工具?
- 注册|阿里申请注册“爆改吧!小店”商标,打造线下特色实体小店
- 车一族|直播|@爱车一族:60分钟穿越汽车的前世今生
- 中国汽车|2020年,我们攒了一个局,串了一条链,下了一盘棋
- 专项|青阳县交通运输局开展巡游出租汽车规范服务专项检查
- 智慧城市|被汽车物联网控制的未来,这是我们向往的新生活吗?
- 耽误|被阿里耽误的虾米的一生