空枝|360面试真题汇总( 二 ) 360面试题1234更多下一页--

1910946995 1910947033 中国辽宁沈阳联通
sc.read("input/.txt").mapPartition(data=>{val splitdata = http://kandian.youth.cn/index/data.split("\t")ip_num_start= splitdata(0)ip_num_end = splitdata(1)loc_nation = splitdata(2)loc_pro = splitdata(3)loc_city = splitdata(4)ISP = splitdata(5)(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)}).map(data=>{if(ip ){(data.loc_nation,data.loc_pro,data.loc_city)}})针对上面代码的一些问题：
A、上面那段代码中，如果文件是一个很大的文件， spark读取的时候用一个任务处理（单机），怎样可以让它读取的效率更高一点？
答：提高并行度？
B、MapPartition的原理是什么？
（5）MapReduce过程
（6）自己写过MapReduce吗？怎么写的？
（7）Shuffle源码？其中Reduce的分区是怎么设置的，针对每个key ，怎么把它放到对应的分区中？
（8）你了解的Hadoop生态圈的框架，及其大概在怎样的一个位置？
（9）MapReduce、Tez和Spark的区别？
（10）Spark读取文件如果内存不够的话，怎么处理？
（11）最近七天连续三天活跃用户怎么实现的？手写一个各区域top10商品统计程序？
（12）平时遇到的数据倾斜的问题，怎么解决的？
（13）大表join大表怎么解决？
（14）每一层大概有多少张表？表的字段也需要记
（15）UDF、UDTF、UDAF区别？
（16）二叉树的前中后序遍历？
（17）排序算法了解过吗？
（18）快排的时间空间复杂度？快排原理
【空枝|360面试真题汇总】（19）冒泡的时间空间复杂度？原理