产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单( 二 )


本书适合准备学习Spark的开发人员和数据分析师 , 以及准备将Spark应用到实际项目中的开发人员和管理人员阅读 , 也适合计算机相关专业的高年级本科生和研究生学习和参考 , 对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料 。
作者简介
范东来 , 北京航空航天大学硕士 , 泛山科技联合创始人 , SparkContributor、SupersetContributor , 架构师 , 技术图书作者和译者 , 著有《Hadoop海量数据处理》 , 译有《解读NoSQL》《NoSQL指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等 , 另译有畅销小说《巧克力时代:因为这是我的血脉》 。
产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单
文章图片
基于ApacheFlink的流处理
ApacheFlink项目的资深贡献者FabianHueske和VasilikiKalavri展示了如何使用FlinkDataStreamAPI实现可伸缩的流式应用 , 以及怎样在业务环境中持续运行和维护这些应用 。 流处理的理想应用场景有很多 , 包括低延迟ETL、流式分析、实时仪表盘以及欺诈检测、异常检测和报警 。 你可以在任意类型的持续数据(包括用户交互、金融交易和物联网等数据)生成后 , 立即对它们进行处理 。
了解有关分布式状态化流处理的概念和挑战 。
探索Flink的系统架构 , 包括事件时间处理模式和容错模型 。
理解DataStreamAPI的基础知识和构成要素 , 包括基于时间和有状态的算子 。
以精确一次的一致性读写外部系统 。
部署和配置Flink集群 。
【产业气象站|spark、storm还是flink?推荐一份海量数据处理技术的书单】对持续运行的流式应用进行运维 。