零基础入门Spark fold操作(Java版)
市面上大多都是Scala的教程 , 这里专门介绍如何使用Java编写相关Spark程序 。
什么是JavaRDD fold操作fold函数是一种聚合操作 , 把所有RDD中的元素进去聚合操作 。
JavaRDD fold函数参数解释fold函数有两个参数 , 分别是 zeroValue , Function2 。
- zeroValue参数是聚合时的初始值 , 值得注意的是 , 聚合操作分两步 , 两步都使用到了该初始值 。
- 聚合每个分区的值
- 聚合所有分区聚合后的值
- Function2提供聚合函数的具体实现 。
文章插图
执行步骤可以理解如下:
第一分区聚合的值是:zeroValue,Spark 。
第二分区聚合的值是:zeroValue,HBase 。
第三分区聚合的值是:zeroValue,Hive 。
最后聚合分区后的聚合就是 zeroValue,zeroValue,Spark,zeroValue,HBase,zeroValue,Hive
总结该操作最重要的就是理解zeroValue参与计算的地方 。 特别主要 , 每个分区的聚合计算都参与 , 把每个分区聚合后的值在进行聚合也参与计算 , 搞清楚这点就彻底掌握改函数了 。
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 同轴心配合|用SolidWorks画一个直角传动,画四个零件就行
- 回收利用协|固废“零”时代产业如何共生?
- 卖场|大卖场如何破局?
- 附属|陈唱国际附属向APM附属公司采购若干零件
- 系统|新零售系统要怎么做?
- 分离基础|数据中心融合的过去、现在和未来
- 全城|抢占零售金融高地 平安信用卡率10万商户再掀“全城天天88”
- 消费|宿言:早看早应用~提升零售产品销售额的9个手段!