小暖男石头哥|58大数据岗位相关面试题汇总( 二 )


(6)问了Kafka的消费速度(这个我说的几十兆每秒 , 群里已经发了 , 是1G每秒 , 可自由发挥)
(7)Kafka分区(我说的5个 , 有点多了 , 应该说2个或者3个吧)
(8)问了HDFS的块你们设置的是多大(我说的128M , 他有疑惑 , 我说默认是128M , 他也表示疑惑)
(9)问了Spark版本 , 说一直是这个版本吗(我说现在用的是2.0 , 之前用的1.6)
(10)Sparksql什么时候不能读到Hive的数据(这个也没答上来)
2)项目部分
(1)你们数仓之间的数据是怎么调度的(我说直接写SQL , 他就问说你怎么知道你的数据已经存储成功了 , 当时尬了一会 , 我说用Crontab调度的 , 他问我这用Crontab合适吗 , 我说那设置Oozie可以设置一段程序执行完再执行下一条程序 , 这块基本就聊炸了吧 , 我不知道Hive内部数据调度还需要这样调 , 我以为直接读)
3)情景部分
(1)设置了一个情景 , 让写SQL , 也相对简单吧
3、三面
项目组负责人
(1)要招数仓和算法的 , 所以主要问了数仓 。
(2)数仓的DM为何不由数据组来设计封装(因为我说的是指负责设计下面三层 , 然后由不同的业务组区数仓里调数据) , 你觉得是数据组封装有什么不妥吗
(3)HBase里面你们都存了具体哪些业务数据(这个我说了大概的存哪类型的数据 , 他问的非常深 , 必须说出存的具体是什么数据 , 我后来说每个商品的点击次数统计 , 实时更新 , ) , 他说这些数据我觉得存到redis或者mysql中也行呀 , 为什么要非要用HBase(我说HBase查的块 , 他说我觉得这样的数据量Redis , MySQL查的也不慢吧) , 然后问了我你认为多少的数据量适合用HBase(我说的几百万)
(4)结合你这个HBase里存储的数据 , 说一下你们的rowkey怎么设计的(这块说的不好 , 因为前面说的不好 , 感觉这边说就强行设计了)
学长31)技术部分
(1)对Hadoop各组件之间通信RPC协议了解
(2)Hadoop的读数据流程
(3)传输过程中DataNode挂掉怎么办
(4)HBase源码
(5)HBase构建二级索引如何保证索引与数据的一致
(6)JVM架构 , 堆内存 , GC算法 , 问平时会不会调GC算法
(7)-Xms和-Xmx设置一个和设置两个而且两个设置的都是一样有什么区别吗
(8)查看当前Java内存各个代的内存比例
(9)查看线程堆栈的命令
(10)查看Java进程里边对象的大小 ,
(11)堆内存泄露怎么看 , 除了Dump出来用MAT还有什么简单的方法
(12)Java进程用户反馈请求服务很慢 , 但是代码不是你开发的你怎么排查问题 ,
多线程 , 实现线程同步的方法
2)算法部分
【小暖男石头哥|58大数据岗位相关面试题汇总】(1)问对数据结构和算法了解吗 , 堆栈和链表什么的