北大英华大数据面试题

北大英华
北大英华大数据面试题文章插图
一、选择题(单、多选)
1.下面哪个程序负责HDFS数据存储 ()
a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker
2.下列哪个程序通常与NameNode在一个节点启动()
a) SecondaryNameNode b)DataNode c)TaskrTracker d)Jobtracker
3.下列哪项通常是集群的最主要瓶颈()
a)CPU b)网络c)磁盘d)内存
4.关于SecondaryNameNode 哪项是正确的?()
a)它是Namewode的热备
b)它对内存没有要求
c)它的目的是帮助NameNode合并编辑日志 , 减少NameNode启动时间
d)SecondaryNameNode应与NameNode 部署到一个节点
【北大英华大数据面试题】5.有关hashMap 跟hashTable 的区别 , 说法正确的是()
a) hashMap和hashTable都实现了Map接口
b)HashMap是非synchronized , 而HashTable是synchronized
c)HashTable 使用Enumeration,HashMap使用Iterator
d)HashTable直接使用对象的hashcode,HashMap重新计算hash值 , 而且用与代替求模
6.以下说法正确的是()
a)对于局部内部类 , 不能在class前加任何修饰符(public default private protected)来修饰
b)只要没有定义不带参数的构造函数 , JVM都会为类生成一个默认的构造函数
c)向上转型中 , 父类与子类拥有相同名字的普通方法时 , 访问的是子类的成员方法
d)单例模式中类的构造方法使用private修饰 , 声明为私有 , 这样就不能在类的外部使用new关键字来创建实例对象
7.在JAVA中关于抽象类的描述正确的说()
a)抽象类可以被实例化
B)如果一个类中有一个方法被声明为抽象的这个类必须是抽象类
c)抽象类的方法必须是抽象的
d)声明抽象类必须带有abstract关键字
8.Client 端上传文件的时候下列哪项正确
a)数据经过NameNode传递给DataNode
b)Client 端将文件切分为Block , 依次上传
c)Client 只上传数据到一台Datalode , 然后由NameNode负责Block复制工作
9.以下说法正确的是()
a)hadoop是Java 开发的 , 所以MapReduce只支持Java 语言编写
b)Hadoop 支持数据的随机读写
c)Ganglia 不仅可以进行监控 , 也可以进行告警
d)Block Size 是不可以修改的
10.下面哪段程序能够正确的实现了GBK编码字节流到UTF-8编码字节流的转换:byte[] src,dst;()a)dst=String.fromBytes(src,"GBK").getBytes("UTF-8")b)dst=new String(src,"GBK").getBytes("UTF-8")c)dst=new String("GBK",src).getBytes()d)dst=String.encode(String.decode(src,"GBK")),"UTF-8)11.以下说法正确的是()a)Slave 节点要存储数据 , 所以它的磁盘越大越好 。 b)Hadoop默认调度器策略为FIFOc)Mapreduce的input split 就是一个blockd)集群内每个节点都应该配RAID , 这样避免单磁盘损坏 , 影响整个节点运行12.以下关于kafka的说法正确的有()a)producer向broker发送事件b)consumer从broker消费事件c)事件由topic区分开 , 每个consumer都会属于一个groupd)相同的group中的consumer不能重复消费事件 , 而同一事件将会发送给每一个不同group的consumer13.下面哪个操作肯定是宽依赖()A. map B. flatMap C. reduceByKey D. sample14.下面哪个端口不是spark自带服务的端口()A. 8080 B.4040 C.8090 D.1808015.下面哪个是spark的action操作a) map b) collect c)filter d)countByKey16.以下说法错误的是()a)启动一个新线程是直接调用run()方法b)CyclicBarrier和CountDownLatch都可以用来让一组线程等待其它线程c)如果手动结束一个线程 , 可以用volatile布尔变量来退出run()方法 , 循还或者是取消任务来中断线程d)wait和notify方法要在同步块里调用17.hive的元数据存储在derby 和 MySQL 中有什么区别()A.没区别 B.多会话 C.支持网络环境 D.数据库的区别18.Spark默认的存储级别()A MEMORY_ONLY B MEMORY_ONLY_SER C MEMORY_AND_DISK D MEMORY_AND_DISK_SER19.Spark中Stape的Task的数量是由什么决定的()A Partition B Job C Stage D TaskScheduler20.以下代码运行输出是()
public class Person{private String name = "Person";int age = 0;}public class Child extends Person{public String grade;public static void main(String[] args){Person p = new Child();System.out.println(p.name);}}A)输出:PersonB)没有输出C)编译出错D)运行出错
二 , 简答部分
1.scala中的隐式函数的关键字?
2. Hbase如何优化的?
3. hadoop中的combine函数的作用?
4. hadoop如何杀死一个job?
5. spark血统的概念?
6. 写出在base shel1中的命令:
a)hbase中查询表名为test , 谁的值=001
b)hbase中查询表名为test , rowkey为userl开头的