数据|EA、Twitter、Airbnb、Uber,怎么建数据中台( 二 )


文章插图
2014 年到 2015 年,EA 的数字平台初步形成,各游戏工作室及业务部门的数据均通过统一的数据管道进入以 Hadoop 为基础的大数据平台,有了统一的数据仓库、服务和算法来支撑业务部门分析、推荐及报表等诉求,此时的数据延迟从两到三天缩短为几个小时。
3)统一的数据标准(术语)
具体来说,大数据部门当时做的第一件事情是在全公司建立统一的数据标准和数据规范,不管是哪个游戏公司和业务部门都用同一套语言来讲同一件事情。

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
我们建立了游戏分析的指标分类 Taxonomy。以玩家分析为例,其需要统一的数据有玩家的消费行为分析、社交行为分析以及游戏行为分析,比如平均游戏时长等指标。在运营分析层面,新增用户分析、留存分析和渠道分析也需要进行统一。
4)统一的数据规范
在数据标准统一之后,我们开始建立统一的数据规范,那么,数据规范是什么意思?
游戏分析数据从客户端以及服务器发送到我们的大数据平台,看似对数据进行统一管理进而消除了烟囱,但实际上由于不同部门的数据格式不尽相同,数据本身并未统一。

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
我们建立了统一的数据来源 Telemetry,将客户端和服务器端发送的数据定义为一个事件,也就是上图提到的 Telemetry Evnet,我们定义了事件的两类属性:
5)“数据中台”建设
在完成如上两个步骤之后,就可以具体聊聊数据中台的建设。
首先,数据中台的建设肯定以业务为驱动,我们做数据中台是希望以数字化的方式来驱动业务发展,比如支持游戏设计和开发、支撑游戏在线服务、支持游戏的市场部门、支持玩家获取游戏广告推送等,这是整个数据中台的发展方向,建设步骤如下图所示。

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
起初,我们的大数据平台采用了快速迭代的方式,逐步将数据从各游戏平台汇聚到大数据平台,并提供基础的数据浏览、查看和下载功能。
因为数据中台的建设投资是巨大的,所以一定要快速见效,这又是一个需要长期投入的过程。
如果短期内没有任何效果,参与其中的大数据部门、业务部门,甚至公司高层都会对后续建设缺乏信心。
数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
因此我们选择了快速迭代的方式,短期就可以看到初步成效,但这个数据中台的功能非常初级,效果是将从各游戏部门拉数据变成了从统一的平台拉数据。
第二步进入工具开发阶段,我们开发了一些自助分析工具,业务部门可以自主进行数据分析,他们的日常工作由原来的 Excel 换到了统一的大数据平台上,这个阶段让业务部门能够把数据用起来。
第三步是能力复用,以当时 EA 营收的主要贡献者 FIFA 为例,我们开发了标签系统可以让 FIFA 快速地从几千万玩家中迅速锁定地区、年龄、日均游戏时长符合要求的玩家,并针对性地进行游戏推广、推送打折券等优惠活动,以促进更多营收。
类似的,我们也建立了反欺诈模型,对于一些积攒游戏币再高价售卖的玩家会有查封账号等处罚,这些能力都是可以复用的。
第四步是形成闭环,就是把从游戏中获取的数据形成服务再反馈给游戏,最简单的是将用户的游戏行为反馈给游戏动态推荐的同学,可以优化推荐结果。
总结下来:
在建设过程中,我们也有一些原则,这些基本是硅谷的科技公司建设数据中台都在采用的:
接下来,我们重点介绍技术层面的内容。
① EA数字化驱动架构

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
如上是 EA 的数字化驱动架构,最上面是 EA 的数据来源,包括手机、游戏机客户端、PC 等渠道,这些数据通过我们定义的 Telemetry 数据格式发送到数据采集层,也就是数据捕获层 River。
数据采集分为两部分:Lightning 实时采集和 Tide 批处理采集,后面会详细介绍这两者的架构。
采集过后的数据进入 Ocean 分布式存储,分布式存储又分为两部分:基于 HDFS 的分布式文件存储系统和 AWS S3 的面向对象存储。