零基础入门Spark groupBy操作(Java版)

【零基础入门Spark groupBy操作(Java版)】市面上大多都是Scala的教程 , 这里专门介绍如何使用Java编写相关Spark程序
什么是JavaRDD groupBy操作JavaRDD 的groupBy操作是将Rdd中的元素按照自定义规则进行数据分组 。 比如按元素的字符串长度进行分组 。
JavaRDD 操作的简单例子按照元素的字符串长度进行分组 , groupBy的参数就是自定义分组规则的函数 , 把函数返回值相同的元素分在一组 , 最后生成新的key,value形式的JavaPairRDD , key 就是分组名也就是字符串长度 , value就是该组的所有元素集合 。 如图:
零基础入门Spark groupBy操作(Java版)文章插图
总结分组关键是理解 groupBy参数的意思 , 它就是分组的函数 , 其返回值就是分组的key 。 groupBy返回新的Rdd 是 键值对的JavaPairRDD, 键就是分组函数的返回值 , 值就是相同键的元素集合 。