数据|EA、Twitter、Airbnb、Uber,怎么建数据中台( 四 )



数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
EA 推荐系统的逻辑大致如此,整个系统上线后对业务的推动作用还是很明显的,比如广告点击率提升了 80%,游戏玩家的参与度提升了 10% 等。
三、硅谷独角兽如何建设“数据中台”?

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
硅谷的其他独角兽建设数据中台的思路基本与上述类似:
1、Twitter的“数据中台”

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
接下来简单介绍 Twitter 的数据中台架构,基本上与 EA 架构类似,从上往下看有 Production 节点,日志通过 Kafka 进行实时采集,也可以通过 Gizzard 批量采集到 Hadoop 里,还有一些数据会存到 MySQL 集群里面。
这些数据进来以后会进入到自己生产环境的 Hadoop 集群中,通过 Nighthawk 可以让业务部门自助使用集群。Twitter 还有数据仓库 Vertica 可以为分析师、工程师和产品经理提供支撑,对用 BI 工具来看的数据,MySQL 也会存储一些,也会作为数据仓库的一部分提供这样的功能。
从技术上来讲,重点介绍:

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
Twitter 的数据中台主要是数据量也很大,对业务的支撑体现在新产品上线之前对竞品分析、用户行为分析、具体位置分析等,保证能够进行精准的广告推送,Twitter 还将部分数据服务对外开放,比如舆情、选情分析等,这些都是 Twitter 数据中台具备的能力。
2、Airbnb的“数据中台”

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
从左到右,整个数据从 Event logs、MySQL Dumps 通过批处理 Sqoop,流处理 kafka 进入 Gold Hive Cluster 生产集群,它有一个副本 Silver Hive Cluster,应该也类似做一些自助式查询。
最后流转至 Spark 集群,数据基本存储在 S3,底层通过 Presto 集群支撑各种服务,比如业务部门的数据分析,Airpal 让业务人员能够轻松写出数据查询请求,Tableau 开源可视化工具可以让业务部门自助可视化报表分析。

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
如上是 Airbnb 数据中台的架构,作为在线租赁订购平台,数据平台支撑的业务主要体现在通过人工智能算法分析用户喜爱的图像。
3、Uber的“数据中台”

数据|EA、Twitter、Airbnb、Uber,怎么建数据中台
文章插图
Uber 的所有数据分别从 Microservices、MySQL、Schemaless 和 Cassandra 进入。
其中 Cassandra 对数据实时性要求较高,数据再经由 Kafka 进入数据采集平台 Marmaray,然后进入 HDFS,其特点是利用 Hudi 在 HDFS 中做增量处理,因为在原来的 HDFS 里做增量处理是比较困难的,但是 Hudi 可以高效实现,对上经由 YARN 支撑众多生态系统,最后通过 Vertica 数据仓库把数据能力开放给业务分析人员。
以上是 Uber 数据中台的架构图,主要支撑了:
综上抽取了几点比较有代表性的内容,Uber 本身在做自动驾驶业务,所以也会使用数据来训练自动驾驶,这是整个 Uber 数据中台架构对业务的支撑。
值得注意的是,他们通过数据中台对数据能力进行抽象,共享和复用一些技术能力,所以从这个方面讲一些案例,希望能够对大家有所帮助。
>>>>
Q & A
Q1:Telemetry 的指标是如何指定的?主要考虑因素是哪些?
A:Telemetry 指标就是游戏数据指标,首先要能够覆盖游戏的所有用户行为,其次是要能够为公司业务分析提供支撑,包括日活、月活、用户平均时长、平均消费等公开可获取的数据,一定要用规定好的格式呈现出来。
同时也为游戏开发部门提供一些灵活的地方,方便他们自助分析。一般来说,我们会在游戏上线前一年确定 Telemetry 框架,但是后期会做一些调整,主要还是从业务角度考虑需要分析什么样的指标,然后以年为单位进行讨论和迭代。
Q2:过去一年听到一些数据中台建设失败案例,您怎么看?
A:我觉得数据中台建设要根据各自企业的情况来讨论,建设过程是分阶段的,我们回顾一家企业的数字化驱动历程可以发现: