DMP商业大数据管理平台架构与实现( 三 )
- 离线特征先在内存中合并单个用户当日的所有特征 , 再合并所有RDD中包含该用户特征的数据 , 最后再把生成的特征数据同特征库中的历史特征数据进行合并(从n到1);
- 实时特征在写入特征库之前先进行窗口内聚合 , 通过牺牲时效性从而减轻特征库的读写压力;
- 将IDMap与离线特征加入本地缓存中 。
② 离线实时特征拆库
由于之前离线实时特征库为同一个库 , 大量离线写入会对在线读请求有影响 , 造成服务超时及离线数据导入时间较长 。 针对此现象我们将离线特征单独存储 , 并将数据导入方式从单条导入修改为bulkload导入的方式 。
优化结果:离线数据导入由3小时降至0.5小时 , 同时DMP对外查询服务保证在50ms之内 。
③ 耗时优化
遇到问题:
- 获取单个用户请求时需要经过IDMap查询、两次实时特征查询和一次离线特征查询 , 总共四次服务调用 , 串行执行很容易超时;
- 入库的时候都做了压缩和序列化 , 如何提高压缩耗时与压缩比;
- DMP平台采用Java服务懒加载方式从而导致服务启动耗时 。
- 对于没有依赖关系的服务调用采用并行处理;
- IDMapping增加缓存 , 保证服务的响应时间;
- 压缩加入压缩头 , 支持多种序列化与压缩方式 , 保留优化空间;
- 修改懒加载方式
11. DMP实验平台
文章插图
- 培训班|单县残联举办残疾人电子商务培训班
- 产业|前瞻生鲜电商产业全球周报第67期:发力社区团购!京东内部筹划“京东优选”
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 商品|问道自有品牌,山姆多方博弈
- 培育|跨境电商人才如何培育,长沙有“谱”了
- 出海|出海日报丨短视频生产服务商小影科技完成近4亿元 C 轮融资;华为成为俄罗斯在线出售智能手机的第一品牌
- 抖音小店|抖音进军电商,短视频的商业模式与变现,创业者该如何抓住机遇?
- 用户|5G信号有猫腻,又在考验用户的智商?