萱草|用Python进行实时计算——PyFlink快速入门
Flink 1.9.0及更高版本支持Python , 也就是PyFlink 。
在最新版本的Flink 1.10中 , PyFlink支持Python用户定义的函数 , 使您能够在Table API和SQL中注册和使用这些函数 。 但是 , 听完所有这些后 , 您可能仍然想知道PyFlink的架构到底是什么?作为PyFlink的快速指南 , 本文将回答这些问题 。
为什么需要PyFlink?Python上的Flink和Flink上的Python那么 , PyFlink到底是什么?顾名思义 , PyFlink就是Apache Flink与Python的组合 , 或者说是Python上的Flink 。 但是Flink on Python是什么意思?首先 , 两者的结合意味着您可以在Python中使用Flink的所有功能 。 而且 , 更重要的是 , PyFlink还允许您在Flink上使用Python广泛的生态系统的计算功能 , 从而可以进一步促进其生态系统的开发 。 换句话说 , 这对双方都是双赢 。 如果您更深入地研究这个主题 , 您会发现Flink框架和Python语言的集成绝不是巧合 。
Python和大数据生态系统python语言与大数据紧密相连 。 为了理解这一点 , 我们可以看一下人们正在使用Python解决的一些实际问题 。 一项用户调查显示 , 大多数人都在使用Python进行数据分析和机器学习应用程序 。 对于此类情况 , 大数据空间中还解决了一些理想的解决方案 。 除了扩大大数据产品的受众范围之外 , Python和大数据的集成还通过将其独立体系结构扩展到分布式体系结构 , 极大地增强了Python生态系统的功能 。 这也解释了在分析大量数据时对Python的强烈需求 。
为什么选择Flink和Python?Python和大数据的集成与其他最近的趋势一致 。 但是 , 再次说明一下 , 为什么Flink现在支持Python , 而不是Go或R或另一种语言?而且 , 为什么大多数用户选择PyFlink而不是PySpark和PyHive?
为了理解原因 , 让我们首先考虑使用Flink框架的一些优势:
- 有利的体系结构: Flink是具有统一流和批处理功能的纯流计算引擎 。
- 新的活力: 根据ASF的客观统计 , Flink是2019年最活跃的开源项目 。
- 高可靠性: 作为一个开源项目 , Flink经过长期测试 , 并广泛应用于大数据公司的生产环境中 。
PyFlink是相关技术发展的必然产物 。 但是 , 仅仅了解PyFlink的重要性是不够的 , 因为我们的最终目标是使Flink和Python用户受益并解决实际问题 。 因此 , 我们需要进一步探索如何实现PyFlink 。
PyFlink架构要实现PyFlink , 我们需要知道要实现的关键目标和要解决的核心问题 。 PyFlink的主要目标是什么?简而言之 , PyFlink的主要目标如下: