{val splitdata = http://kandian.youth.cn/index/data.split("\t")ip_num_start= splitdata(0)ip_num_end = splitda。空枝|360面试真题汇总( 二 )。" />

空枝|360面试真题汇总( 二 )


1910946995 1910947033 中国 辽宁 沈阳 联通
sc.read("input/.txt").mapPartition(data=>{val splitdata = http://kandian.youth.cn/index/data.split("\t")ip_num_start= splitdata(0)ip_num_end = splitdata(1)loc_nation = splitdata(2)loc_pro = splitdata(3)loc_city = splitdata(4)ISP = splitdata(5)(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)}).map(data=>{if(ip ){(data.loc_nation,data.loc_pro,data.loc_city)}})针对上面代码的一些问题:
A、上面那段代码中 , 如果文件是一个很大的文件 , spark读取的时候用一个任务处理(单机) , 怎样可以让它读取的效率更高一点?
答:提高并行度?
B、MapPartition的原理是什么?
(5)MapReduce过程
(6)自己写过MapReduce吗?怎么写的?
(7)Shuffle源码?其中Reduce的分区是怎么设置的 , 针对每个key , 怎么把它放到对应的分区中?
(8)你了解的Hadoop生态圈的框架 , 及其大概在怎样的一个位置?
(9)MapReduce、Tez和Spark的区别?
(10)Spark读取文件如果内存不够的话 , 怎么处理?
(11)最近七天连续三天活跃用户怎么实现的?手写一个各区域top10商品统计程序?
(12)平时遇到的数据倾斜的问题 , 怎么解决的?
(13)大表join大表怎么解决?
(14)每一层大概有多少张表?表的字段也需要记
(15)UDF、UDTF、UDAF区别?
(16)二叉树的前中后序遍历?
(17)排序算法了解过吗?
(18)快排的时间空间复杂度?快排原理
【空枝|360面试真题汇总】(19)冒泡的时间空间复杂度?原理