空枝|360面试真题汇总( 二 )
1910946995 1910947033 中国 辽宁 沈阳 联通
sc.read("input/.txt").mapPartition(data=>{val splitdata = http://kandian.youth.cn/index/data.split("\t")ip_num_start= splitdata(0)ip_num_end = splitdata(1)loc_nation = splitdata(2)loc_pro = splitdata(3)loc_city = splitdata(4)ISP = splitdata(5)(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)}).map(data=>{if(ip ){(data.loc_nation,data.loc_pro,data.loc_city)}})
针对上面代码的一些问题:
A、上面那段代码中 , 如果文件是一个很大的文件 , spark读取的时候用一个任务处理(单机) , 怎样可以让它读取的效率更高一点?
答:提高并行度?
B、MapPartition的原理是什么?
(5)MapReduce过程
(6)自己写过MapReduce吗?怎么写的?
(7)Shuffle源码?其中Reduce的分区是怎么设置的 , 针对每个key , 怎么把它放到对应的分区中?
(8)你了解的Hadoop生态圈的框架 , 及其大概在怎样的一个位置?
(9)MapReduce、Tez和Spark的区别?
(10)Spark读取文件如果内存不够的话 , 怎么处理?
(11)最近七天连续三天活跃用户怎么实现的?手写一个各区域top10商品统计程序?
(12)平时遇到的数据倾斜的问题 , 怎么解决的?
(13)大表join大表怎么解决?
(14)每一层大概有多少张表?表的字段也需要记
(15)UDF、UDTF、UDAF区别?
(16)二叉树的前中后序遍历?
(17)排序算法了解过吗?
(18)快排的时间空间复杂度?快排原理
【空枝|360面试真题汇总】(19)冒泡的时间空间复杂度?原理
- 公司|面试官:你有三杯茶,来了十个老板咋办?求职者高情商回答被录取
- 天气早知道|身价3360亿世界首富洛克菲勒,对儿子的忠告:做人要把握3种能力
- 空枝|后电商时代,商家以什么取胜?品道认为认清其本质是关键
- 「面试」产品经理面试:如何让富婆爱上你
- 不懂性能测试,被面试官挂了...
- 空枝|两个月吃透阿里P9推荐260页SpringBoot2企业应用实战pdf入职定P6+
- LadyThemis|遍布360行,中企该如何应对?,25年遭反倾销近1500起
- 黑河约360米高空现云上双彩虹 云雾笼罩城市宛如人间仙境
- 怅然 给家长一个省钱的好秘笈:360液晶手写绘板
- 无缘清北文科第一名申请香港大学|无缘清北文科第一名申请香港大学 白湘菱入学面试全英文