画像|用户画像ID体系建设:以阿里、网易、美团、58为例

编辑导语:在上篇文章《一文从0到1掌握用户画像知识体系》中,本文作者为我们分析了用户画像知识体系。在上篇文章的基础上,今天,作者又以阿里、网易、美团、58为例,分析总结了用户画像ID体系建设,帮你理清楚各ID之间的关系图,方便做映射。
画像|用户画像ID体系建设:以阿里、网易、美团、58为例
文章插图
前言:梳理完标签画像体系的业务需求后,作为数据产品经理,就要开始了对画像体系的整体设计,其中首要遇到的就是用户ID体系的打通相关的问题。
公司各业务线ID繁多,数据割裂,如何才能尽可能关联更多的数据,以准确的描绘出一个用户的画像呢?
接下来我们来看看索隆通过对界内科技巨头:阿里、网易、美团、58的调研分析,来一步步建立自己公司的ID-Mapping体系的过程。
一、阿里OneID
阿里巴巴作为一家包含多条业务线的公司,如:
电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。
ID类型包含phone、PC cookie、IMEI与IDFA、淘宝账户、支付宝账户、邮箱等。
而对于每个BU来说,他们知道的只是这个客户的片面属性,在开展营销活动时,只是针对一个手机号或一个邮箱做营销,但背后不能识别出来一个自然人、一个公司。
为打破数据孤岛,创造更大的数据价值,阿里使用OneData作为核心方法论。
OneData体系包含:
OneModel:数据资产构建与管理
OneID:实体打通和画像
OneService:逻辑化服务
画像|用户画像ID体系建设:以阿里、网易、美团、58为例
文章插图
OneID基于超强ID识别技术链接数据,高效生产标签;业务驱动技术价值化,消除数据孤岛,提升数据质量,提升数据价值。
而ID的打通,必须有ID-ID之间的两两映射打通关系,通过ID映射关系表,才能将多种ID之间的关联打通,完全孤立的两种ID是无法打通的。
打通整个ID体系,看似简单,实则计算复杂,计算量非常大。
假如某种对象有数亿个个体,每个个体又有数十种不同的ID标识,任意两种ID之间都有可能打通关系,想要完成这类对象的所有个体ID打通需要数亿次计算,一般的机器甚至大数据集群都无法完成。
大数据领域中的ID-Mapping技术就是用机器学习算法类来取代野蛮计算,解决对象数据打通的问题。
基于输入的ID关系对,利用机器学习算法做稳定性和收敛性计算,输出关系稳定的ID关系对,并生成一个UID作为唯一识别该对象的标识码。
二、网易ID-Mapping
网易产品线有网易云音乐、网易邮箱、网易新闻、网易严选等,不同应用上有不同的ID,如yanxuanid、oaid、musicid、phone、email、idfa、imei等。
要想标识唯一ID,网易采用的思路及方案为:
结合各种账户、各种设备型号之间的关系对,以及设备使用规律等用户数据,采用规则规律、数据挖掘算法(连通图划分 社区发现)的方法,判别账户是否属于同一个人。
画像|用户画像ID体系建设:以阿里、网易、美团、58为例
文章插图
ID-Mapping过程中,常遇到的问题及对应方案如下:
1. 问题一:用户有多个设备信息
画像|用户画像ID体系建设:以阿里、网易、美团、58为例】解决方案:定义相关的阈值进行关联。社区发现当前应用于营销场景,暂未用于风控或用户运营场景,因为这种方式会把一些异常的账号关联在一起,且会存在仅登录使用过一次的设备信息。
2. 问题二:设备过期,一般是2年半左右时间
解决方案:设定衰减系数,对单用户多设备加大衰减力度。
备注:通常一人多设备对应的场景有,借用朋友设备、设备脏数据、刷号等。
三、58 ID-Mapping
58业务场景丰富,其产品线包含58同城、赶集、安居客、中华英才网、转转、58到家等。
在这种多用户、多业务线、多子公司的情况下,用户数据种类繁杂,构建画像的数据来自于日志、简历库、帖子库、用户信息库、商家库、认证信息库等数据源,其中仅日志就涉及到58、赶集、安居客等各个子产品的PC/M/APP日志。
如何将众多数据源串联起来是构建用户画像面临的第一个问题,如下是58构建的ID-Mapping模型图。
画像|用户画像ID体系建设:以阿里、网易、美团、58为例
文章插图
从图中可以看出,不同业务线所拥有的ID标识不一:
58同城:wuser、wbdid、wimei