小暖男石头哥|58大数据岗位相关面试题汇总( 二 ) 58面试题12345更多下一页--

（6）问了Kafka的消费速度（这个我说的几十兆每秒，群里已经发了，是1G每秒，可自由发挥）
（7）Kafka分区（我说的5个，有点多了，应该说2个或者3个吧）
（8）问了HDFS的块你们设置的是多大（我说的128M ，他有疑惑，我说默认是128M ，他也表示疑惑）
（9）问了Spark版本，说一直是这个版本吗（我说现在用的是2.0 ，之前用的1.6）
（10）Sparksql什么时候不能读到Hive的数据（这个也没答上来）
2）项目部分
（1）你们数仓之间的数据是怎么调度的（我说直接写SQL ，他就问说你怎么知道你的数据已经存储成功了，当时尬了一会，我说用Crontab调度的，他问我这用Crontab合适吗，我说那设置Oozie可以设置一段程序执行完再执行下一条程序，这块基本就聊炸了吧，我不知道Hive内部数据调度还需要这样调，我以为直接读）
3）情景部分
（1）设置了一个情景，让写SQL ，也相对简单吧
3、三面
项目组负责人
（1）要招数仓和算法的，所以主要问了数仓。
（2）数仓的DM为何不由数据组来设计封装（因为我说的是指负责设计下面三层，然后由不同的业务组区数仓里调数据），你觉得是数据组封装有什么不妥吗
（3）HBase里面你们都存了具体哪些业务数据（这个我说了大概的存哪类型的数据，他问的非常深，必须说出存的具体是什么数据，我后来说每个商品的点击次数统计，实时更新，），他说这些数据我觉得存到redis或者mysql中也行呀，为什么要非要用HBase（我说HBase查的块，他说我觉得这样的数据量Redis ， MySQL查的也不慢吧），然后问了我你认为多少的数据量适合用HBase（我说的几百万）
（4）结合你这个HBase里存储的数据，说一下你们的rowkey怎么设计的（这块说的不好，因为前面说的不好，感觉这边说就强行设计了）
学长31）技术部分
（1）对Hadoop各组件之间通信RPC协议了解
（2）Hadoop的读数据流程
（3）传输过程中DataNode挂掉怎么办
（4）HBase源码
（5）HBase构建二级索引如何保证索引与数据的一致
（6）JVM架构，堆内存， GC算法，问平时会不会调GC算法
（7）-Xms和-Xmx设置一个和设置两个而且两个设置的都是一样有什么区别吗
（8）查看当前Java内存各个代的内存比例
（9）查看线程堆栈的命令
（10）查看Java进程里边对象的大小，
（11）堆内存泄露怎么看，除了Dump出来用MAT还有什么简单的方法
（12）Java进程用户反馈请求服务很慢，但是代码不是你开发的你怎么排查问题，
多线程，实现线程同步的方法
2）算法部分
【小暖男石头哥|58大数据岗位相关面试题汇总】（1）问对数据结构和算法了解吗，堆栈和链表什么的