像梦一样奔驰|读《数据中台-让数据用起来》笔记整理( 六 )
对贴源数据层理解
对于书里面谈到的贴源数据层你直接理解为传统的ODS库本身是没有问题的 。 贴源数据层重点就是将企业已有各个业务系统中的数据抽取和集成到一起 , 形成全量的业务数据 。 面对业务中台架构模式下 , 就是需要对所有业务中台对应的业务数据库进行数据采集和集成 。
注意当前主流的方式已经从ETL变化为ELT , 即只负责最简单的数据抽取和装载 , 没有复杂的数据映射和转换动作 , 当我们看类似DataX这种工具的时候你也可以看到这个特点 , 变得更加轻量同时性能也更高 。
如果要说贴源数据层和传统ODS库的区别 , 那么贴源数据层仅仅做数据的汇聚和整合 , 并不具备传统意义上的ODS的如下功能 , 即数据交换 , 实时性 , 报表等功能 。
对标签数据层的理解
对应数据仓库层这篇文章不详细展开 , 只谈下标签数据层 。 首先我们能够看到就是标签数据层是围绕一个关键对象进行的分析和建模 , 而且这个动作是完全跨越进行的 , 数据粒度更粗更抽象 , 但是能够发挥的数据价值往往却越大 。 因为标签层真正整合了跨域的数据 , 包括静态数据和动态数据 , 同时在数据之间建立了关联 , 同时通过各种算法对数据进一步加工和聚合 。
标签数据层是面向对象建模 , 把一个对象各种标识打通归一 , 把跨业务板块数据域的对象数据在同一个粒度基础上 , 组织起来打到对象上 。 标签数据层建设 , 一方面让数据变得可阅读与理解方便业务使用 , 另一方面通过标签类目体系将标签组织排布 , 以一种适用性更好的组织方式来匹配未来变化的业务场景需求 。
对于标签对象 , 实际上我们看到主要分为三类 , 即人 , 物 , 关系 。 对于关系本身有可能是人和人 , 人和物 , 物和物都有可能 。 当然也可以从静态和动态层面来理解 , 有静态属性类标签 , 有动态行为类标签 , 比如采购 , 支付等就是动态行为类标签 。 而实际上你可以看到很多关系信息的产生往往也来源于动态行为标签 。
对于标签本身的分类 , 又可以分为基础属性类标签 , 统计类标签和用户画像 。 还有一种说法感觉更好 , 就是基础属性类标签 , 统计类标签 , 算法类标签 。 我们拿一个客户相关的标签来举例 。
基础属性类:年龄段 , 区域 , 性别 , 婚姻状况 , 年收入段统计类标签:活跃度 , 客单价 , 最常购买商品类别 , 复购率算法类标签:消费偏好 , 消费价值 , 用户画像类特征(类似潮流达人 , 宅家一族等)从这个也可以看到 , 统计类标签往往都来源于动态的关系类数据的分析 , 但是这些关系类数据分析最终又会关联到具体商品的类目属性上面 。
标签和用户画像
我前面为啥聚两个场景 , 实际上你可以看到刚好是聚合的两个端 , 当我们对单个特定用户画像的时候你可以看到往往对对商品群体进行聚合分析和处理 , 是在物品这端 。 当对物品的购买意向进行用户群画像的时候可以看到是在用户群体这段进行聚合 , 最终得到一个抽象的结果 。
那么在场景一我们能否给出用户维度的画像 , 比如得出张三是单身的画像 。 而这个就是我们说的大数据里面的关联类分析 , 比如网上购买啤酒行为和用户的单身属性之间往往具有强关联 , 当具备这种强关联的时候 , 我们可以给张三打一个单身的标签 。
- 科技日日说|realme真我X7全方位评测:不一样的颜值,不一样的体验!,原创
- 功夫财经|猪肉也被人卡脖子了,种猪大危机:和芯片一样
- 就是爱搞机|嫌你家音箱外观太单调?哈曼卡顿给你不一样的视觉冲击感
- 韭菜花音乐|PC一样强大,数字化验孕仪性能几乎和最初的IBM
- 理想生活实验室资讯号|S7 开箱体验:机身轻便,设计和拍摄表现一样干净友好,vivo
- 光一样的少年|必须试试,受够了电脑弹窗广告的你
- 基因|美国发现一只基因变异的猩猩,手指已和人类一样,还能够持续进化
- 老虎|谁说只有老虎的头上才有王字,这种动物也有,而且和老虎一样凶猛
- 商业经济观察|造芯片如同造原子弹一样重要!华为的“遭遇”给所有人敲醒了警钟
- 互联网的放大镜|小米将和奔驰合作?但卢伟冰此前嘲讽了友商和保时捷合作