TalkingData大数据面试真题

TalkingData
TalkingData大数据面试真题文章插图
1)业务类
1. 项目整体架构
2. HBase二级索引及RowKey设计
3. 数仓整体分层及架构
2)非业务类
1. Hive调优
我重点讲了CombineInputFormat和JVM重用;hive.groupby.skewindata与hive.aggr.enable调节数据倾斜;
2. Spark实现mapJoin?
使用广播变量 , 小表先广播出去 , 然后在Executor中读取其副本与当前表mapJoin
3. MapReduce实现innerJoin?
Reduce阶段的K-V的V中如果有两个或以上的内容 , 即表示innerJoin成功;
4. Spark内存模型?
【TalkingData大数据面试真题】Executor:静态内存规划与统一内存规划;
Driver:上课没讲 , 文本里面说很简单;
5. RDD底层结构?
很复杂 , 包括sparkConf , sparkContext , lineage , storageLevel , partitioner等
6. JVM的引用类型?
四种:Strong , Soft , Weak , Phantom , 各自在垃圾回收时有不同的机制;
7. JVM结构与GC算法 。