中体彩大数据面试题

中体彩
中体彩大数据面试题文章插图
【选择题】
1.Spark Job 就认的调度模式()
A.FIFO B.FAIR C.无 D.运行时指定
2.下面哪个不是RDD的特点()
A.时分区 B.可序列化 C可修改 D可持久化
3.关于广播交量 , 下面哪个是错误的()
A.任何函数调用 B.是只读的 C.存储在各个节点 D.存储在磁盘域HDFS
4.下面哪个操作是窄依赖()
A.join B.filter C.group D.sort
5.spark的master和worker通过什么方式进行通信的?()
A.http B.nio C.netty D.Akka
6.hive的元数据存储在derby 和MySQL中有什么区别()
A.没区别 B.多会话 C.支持网络环境 D.数据库的区别
7.下列哪项可以作为集群的管理?()
A.Puppet B.Pdsh C.Cloudera Manager D Zookceper
8.MapReduce与HBase的关系 , 哪些描述是正确的?()
A两者不可或缺 , MapReduce 是HBase可以正常运行的保证
B两者不是强关联关系 , 没有MapReduce , HBase可以正常运行
C MapReduce可以直接访问HBase
D它们之间没有任何关系
9.下面与HDFS类似的框架是?()
A.NTFS B.FAT32 C.GFS D.EXT3
10.LSM含义是?()
A日志结构合并树 B二叉树 C平衡二又树 D长平衡二叉树
【中体彩大数据面试题】11.关于HBase二级索引的秒速 , 哪些是正确的?()
A 核心是倒排表
B 二级索引概念是对应Rowkey这个“一级”索引
(图中少二个选项 , 自己想下 。。。 )
12简述HDFS的存储机制
13请说明hive中Sort By , Order By , Cluster By, Distrbute By 各个代表什么意思?
14你觉得成为一个优秀开发工程师应该具备哪些职业素养?你看过哪些软件开发方面的书籍?