TalkingData大数据面试真题 TalkingData1）业务类1.项目整体架

TalkingData
文章插图
1）业务类
1. 项目整体架构
2. HBase二级索引及RowKey设计
3. 数仓整体分层及架构
2）非业务类
1. Hive调优
我重点讲了CombineInputFormat和JVM重用；hive.groupby.skewindata与hive.aggr.enable调节数据倾斜；
2. Spark实现mapJoin？
使用广播变量，小表先广播出去，然后在Executor中读取其副本与当前表mapJoin
3. MapReduce实现innerJoin？
Reduce阶段的K-V的V中如果有两个或以上的内容，即表示innerJoin成功；
4. Spark内存模型？
【TalkingData大数据面试真题】Executor：静态内存规划与统一内存规划；
Driver：上课没讲，文本里面说很简单；
5. RDD底层结构？
很复杂，包括sparkConf ， sparkContext ， lineage ， storageLevel ， partitioner等
6. JVM的引用类型？
四种：Strong ， Soft ， Weak ， Phantom ，各自在垃圾回收时有不同的机制；
7. JVM结构与GC算法。

对手|一加9Pro全面曝光，或是小米11最大对手
同比|亚马逊公布“剁手节”创纪录战绩：第三方卖家全球销售额超48亿美元同比大增60%
人民币|天猫国际新增“服务大类”，知舟集团提醒入驻这些类目的要注意
痛点|首个OTA智能社区诞生解决行业四大痛点
王兴称美团优选目前重点是建设核心能力；苏宁旗下云网万店融资60亿元；阿里小米拟增资居然之家|8点1氪 | 美团
零部件|马瑞利发力电动产品，全球第七大零部件供应商在转型
长安|长安傍上华为这个大腿，市值暴涨500亿！可见华为影响力之大？
通气会|12月4～6日，2020中国信息通信大会将在成都举行
程序|2020全景生态流量秋季大报告：TOP100APP超半数布局小程序，全景流量重塑行业竞争新格局
查询|数据太多容易搞混？掌握这几个Excel小技巧，办公思路更清晰