航天信息大数据面试题航天信息1.写出Spark经典算法wordcount

航天信息
文章插图
1.写出Spark经典算法wordcount伪代码（java scala python均可）（5分）
一、数据库部分（共10分）
1、设学生表和课科表的结构分别为（学号，姓名）和（学号，课程号，成绩）.如果希望查询出“成绩大于90分的学生姓名” 。则对应的SOL请句是（）。（2分）
A、SELECT姓名FROM学生表WHERE学生表.学号一课程表.学号AND课程表.成绩>90
B、SELECT姓名FROM课程表WHERE学生表.学号=课程表.学号AND课程表.成绩>90
C.SELECT姓名FROM学生表，课程表WHERE学生表.学号=课程表.学号OR课程表.成绩>90
D.SELECT姓名FROM学生表，课程表WHERE学生表.学号=课程表.学号AND课程表.成绩>90
2、执行数据库查询时，如果查询的数据很多，下面喝线办法是提高在询效率（）（4分）
A 采用连接池，增加数据库执行线程
B 反复使用PreparedStatement.减少查询次数
C 增加数据库缓冲区，提高数据库I/O方面性能
D 建立索引
3.有一下每门课程都大于80的学生姓名：学生表stulent 分数长grade（4分）
二、简答题（40分）
（1）现有集合A（集合学段为 Jxfp _id ， gf_ nsr_ key ， je ， se）， B（集合字段为jxfp_id, gf_nsr_key, wpmc）.两个集合的关联字段为jxfp_id ，请计算集合C（C-A-B）（5分）
（2）请完成下面的方法，该方法的目的是采用递规的方式计算结果（5分）
public static double recursive（int i）{
}
（3）简述HDFS的主要功能节点及其作用（0分）
（4）解释一下工厂模式（5分）
【航天信息大数据面试题】（5）简述MapReduce框架的三大主要功能节点及其作用？（10分）