TalkingData大数据面试真题
TalkingData
文章插图
1)业务类
1. 项目整体架构
2. HBase二级索引及RowKey设计
3. 数仓整体分层及架构
2)非业务类
1. Hive调优
我重点讲了CombineInputFormat和JVM重用;hive.groupby.skewindata与hive.aggr.enable调节数据倾斜;
2. Spark实现mapJoin?
使用广播变量 , 小表先广播出去 , 然后在Executor中读取其副本与当前表mapJoin
3. MapReduce实现innerJoin?
Reduce阶段的K-V的V中如果有两个或以上的内容 , 即表示innerJoin成功;
4. Spark内存模型?
【TalkingData大数据面试真题】Executor:静态内存规划与统一内存规划;
Driver:上课没讲 , 文本里面说很简单;
5. RDD底层结构?
很复杂 , 包括sparkConf , sparkContext , lineage , storageLevel , partitioner等
6. JVM的引用类型?
四种:Strong , Soft , Weak , Phantom , 各自在垃圾回收时有不同的机制;
7. JVM结构与GC算法 。
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 同比|亚马逊公布“剁手节”创纪录战绩:第三方卖家全球销售额超48亿美元 同比大增60%
- 人民币|天猫国际新增“服务大类”,知舟集团提醒入驻这些类目的要注意
- 痛点|首个OTA智能社区诞生 解决行业四大痛点
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 长安|长安傍上华为这个大腿,市值暴涨500亿!可见华为影响力之大?
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 程序|2020全景生态流量秋季大报告:TOP100APP超半数布局小程序,全景流量重塑行业竞争新格局
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰