大数据期末考试题库Spark选择题章鱼学院（Spark）大数据期末题目汇总

363 阅读 0 评论 240 点赞

我是靠谱客的博主精明小虾米，这篇文章主要介绍大数据期末考试题库Spark选择题章鱼学院（Spark）大数据期末题目汇总，现在分享给大家，希望可以做个参考。

文章目录

Spark选择题
章鱼学院（Spark）
大数据期末题目汇总
- 选择题
- 填空题
- 判断题
- 简答题

Spark选择题

Spark 的四大组件下面哪个不是 ( D )
A.Spark Streaming B Mlib
C Graphx D Spark R
下面哪个端口不是 spark 自带服务的端口 ( C )
A.8080 B.4040 C.8090 D.18080
spark 1.4 版本的最大变化 ( B )
A spark sql Release 版本 B 引入 Spark R
C DataFrame D 支持动态资源分配
Spark Job 默认的调度模式 ( A )
A FIFO B FAIR

C 无 D 运行时指定
哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true B 显式指定本地运行

C finalStage 无父 Stage D partition 默认值
下面哪个不是 RDD 的特点 ( C )
A. 可分区 B 可序列化 C 可修改 D 可持久化
关于广播变量，下面哪个是错误的 ( D )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
关于累加器，下面哪个是错误的 ( D )
A 支持加法 B 支持数值类型
C 可并行 D 不支持自定义类型
Spark 支持的分布式部署方式中哪个是错误的 ( D )
A standalone B spark on mesos
C spark on YARN D Spark on local
Stage 的 Task 的数量由什么决定 ( A )
A Partition B Job C Stage D TaskScheduler
下面哪个操作是窄依赖 ( B )
A join B filter
C group D sort
下面哪个操作肯定是宽依赖 ( C )
A map B flatMap
C reduceByKey D sample
spark 的 master 和 worker 通过什么方式进行通信的？ ( D )
A http B nio C netty D Akka
默认的存储级别 ( A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
spark.deploy.recoveryMode 不支持那种 ( D )
A.ZooKeeper B. FileSystem
D NONE D Hadoop
下列哪个不是 RDD 的缓存方法 ( C )
A persist() B Cache() C Memory()
Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C )
A Driver program B. spark master
C.worker node D Cluster manager
hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B )
A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别
DataFrame 和 RDD 最大的区别 ( B )
A. 科学统计支持 B. 多了 schema
C. 存储方式不一样 D. 外部数据源支持
Master 的 ElectedLeader 事件后做了哪些操作 ( D )
A. 通知 driver B. 通知 worker
C. 注册 application D. 直接 ALIVE

章鱼学院（Spark）

Spark 是什么 () ？正确答案：A,C,D

A.Spark 是基于内存计算的框架
B.Spark 是基于磁盘计算的框架
C.Spark 是一种基于 RDD 计算框架
D.Spark 是一种并行计算框架

spark 的数据，可以存储在哪些地方？正确答案：A,B,C,D

A.HDFS
B.Cassandra
C.Hbase
D.S3

大数据处理主要的三种场景为（）正确答案：A,B,C

A. 批处理
B. 交互处理
C. 流式计算
D. 事务处理

以下对 Spark Core 描述正确的有？正确答案：A,B,C,D

A. 引入了 RDD
B. 移动计算而非移动数据
C. 使用线程池来减少 task 启动开销
D. 使用 akka 作为通讯框架

以下对 Spark SQL 的描述正确的有？正确答案：A,B,C

A.Spark SQL 运行开发人员之间处理 RDD
B.Spark SQL 可以直接查询 hive 中的数据
C.Spark SQL 运行开发人员之间使用 SQL 进行复制的数据分析
D.Spark SQL 的性能上，和 Hive 类似。

以下哪些是 Spark 的组件？正确答案：A,B,C

A.MLBase/MLlib
B.GraphX
C.Spark R
D.Matlab

Spark 的运行模式有哪些？正确答案：A,B,C,D

A.local
B.Standalone
C.on Yarn or on mesos
D.on Cloud

spark 运行模式中，on yarn 这种模式，可以应用于生产环境中。正确答案：A

A. 正确
B. 错误

spark 运行模式中，local 这种模式，可以应用于生产环境中。正确答案：B

A. 正确
B. 错误

Spark 使用的资源管理器有哪些？正确答案：A,B,C,D

A.Mesos
B.standalone
C.yarn
D.cloud

spark 都有哪些组件？正确答案：A,B,C,D

A.Spark SQL
B.Spark Streaming
C.MLlib
D.GraphX

Spark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架正确答案：A

A. 正确
B. 错误

下列对 spark 描述正确的有？正确答案：A,B,C,D

A.spark 是基于内存计算的
B.spark 处理大量数据的一个快速通用的引擎
C.spark 由 AMPlab 实验室开发
D.spark 目前是 apache 的顶级项目

spark 是由 java 语言开发正确答案：B

A. 正确
B. 错误

Spark 的容错机制是 ()。正确答案：A,D

A.checkpoint
B.persist
C.cache
D.lineage

Spark 与 Hadoop 的区别 ()。正确答案：A,C

A.Spark 是基于内存计算框架，而 Hadoop 基于硬盘计算框架
B.Spark 是基于硬盘计算框架，而 Hadoop 基于内存计算框架
C.Spark 是一站式计算框架，而 Hadoop 只适合离线处理计算框架
D.Spark 只适合离线处理计算框架，而 Hadoop 是一站式计算框架

spark 基本特点有哪些？正确答案：A,B,C,D

A.Ease of use
B.Generality
C.Runs everywhere
D.Speed

可以使用哪些语言来编写 spark 应用程序？正确答案：A,B,C,D

A.java
B.scala
C.python
D.R

spark 和 hadoop 对比，说法正确的是？正确答案：A,B,C

A.Hadoop 中间结果会存储在磁盘上
B.spark 中间结果会存储在内存中
C.Spark 相对于 hadoop 提供了更多的操作
D.Spark 已经完全取代 hadoop

Spark 常见组件描述错误的是 ()。正确答案：B

A.Spark Core：是以内存使用 RDD 的计算实现有向无环图的分布式并行计算框架
B.Spark Streaming：是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架
C.Spark SQL：是一个可以直接通过 sql 语句处理 RDD，来进行查询与计算
D.Spark MLBase：是专注于机器学习方面
E.Spark GraphX：是专注于图计算方面
F.SparkR：是一种使用 R 语言开发，且能实现并行处理的计算框架

大数据期末题目汇总

选择题

下面哪个程序负责 HDFS 数据存储。（C ）

A. NameNode B.Jobtracker

C. Datanode D. secondaryNameNode

HDFS 中的 block 默认保存几个备份。（ A ）

A. 3 份 B. 2 份

C. 1 份 D. 不确定

HDFS1.0 默认 Block Size 大小是多少。（ B ）

A. 32MB B. 64MB

C. 128MB D. 256MB

下面哪个进程负责 MapReduce 任务调度。（ B ）

A. NameNode B. Jobtracker

C. TaskTracker D. secondaryNameNode

Hadoop1.0 默认的调度器策略是哪个。（A ）

A. 先进先出调度器 B. 计算能力调度器

C. 公平调度器 D. 优先级调度器

Client 端上传文件的时候下列哪项正确？（ B ）

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block，依次上传

C. Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

D. 以上都不正确

在实验集群的 master 节点使用 jps 命令查看进程时，终端出现以下哪项能说明 Hadoop 主节点启动成功？（ D ）

A. Namenode,Datanode, TaskTracker

B. Namenode,Datanode, secondaryNameNode

C. Namenode,Datanode, HMaster

D. Namenode,JobTracker, secondaryNameNode

若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置，下列哪一项是 MapReduce 不适宜的运算。（ D ）

A. Max B. Min

C. Count D. Average

MapReduce 编程模型，键值对 <key, value> 的 key 必须实现哪个接口？（ A ）

A.WritableComparable B. Comparable

C. Writable D. LongWritable

以下哪一项属于非结构化数据。（C）

A. 企业 ERP 数据 B. 财务系统数据

C. 视频监控数据 D. 日志数据

HBase 数据库的 BlockCache 缓存的数据块中，哪一项不一定能提高效率。（D ）

A. –ROOT - 表 B. .META. 表

C. HFile index D. 普通的数据块

HBase 是分布式列式存储系统，记录按什么集中存放。（A ）

A. 列族 B. 列

C. 行 D. 不确定

HBase 的 Region 组成中，必须要有以下哪一项。（ B ）

A. StoreFile B. MemStore

C. HFile D. MetaStore

客户端首次查询 HBase 数据库时，首先需要从哪个表开始查找。（ B ）

A. .META. B. –ROOT-

C. 用户表 D. 信息表

15、设计分布式数据仓库 hive 的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。（ A ）

A. 分桶 B. 分区

C. 索引 D. 分表

填空题

大数据的特点：Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性)
大数据的性质：非结构性、不完备性、时效性、安全性、可靠性
大数据处理的全过程：数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释
大数据的关键技术：流处理、并行化、摘要索引、可视化
科学研究范式：第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)
CAP理论：Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求，最多只能同时满足两个。
HDFS 目标：兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性
流式数据的特征：实时性、易失性、突发性、无序性、无限性、准确性
Storm 特征：编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列，快
搜索引擎的工作过程：爬行 -> 抓取存储 -> 预处理 -> 排名
搜索引擎的评价指标：查全率、查准率、响应时间、覆盖范围、用户方便性
数据分析的目的：对杂乱无章的数据进行集中、萃取、提炼，进而找出所研究对象的内在规律，发现其价值。
Hadoop 的三种安装模式：单机伪分布式完全分布式
yarn 配置后的 web 监控的默认端口是 8088
HDFS web 界面的默认端口为 50070
目前得到广泛应用的分布式文件系统主要包括 GFS 和 HDFS。
HDFS 采用 “一次写入，多次读取” 的简单文件模型。
HDFS 采用了主从结构模型。
Hase 3 个主要功能组件：库函数，Master 主服务器，Region 服务器
MapReduce 模型的核心是 Map 函数和 Reduce 函数。
YARN 的目标就是实现 “一个集群，多个框架”。

判断题

Hadoop 支持数据的随机读写。（hbase 支持，hadoop 不支持）（错）
NameNode 负责管理元数据信息 metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。（内存中读取）（错）
MapReduce 的 input split 一定是一个 block。（默认是）（错）
MapReduce 适于 PB 级别以上的海量数据在线处理。（离线）（错）
链式 MapReduce 计算中，对任意一个 MapReduce 作业，Map 和 Reduce 阶段可以有无限个 Mapper，但 Reducer 只能有一个。（对）
MapReduce 计算过程中，相同的 key 默认会被发送到同一个 reduce task 处理。（对）
HBase 对于空（NULL）的列，不需要占用存储空间。（没有则空不存储）（对）
HBase 可以有列，可以没有列族（column family）。（有列族）（错）

简答题

简述大数据技术的特点。

Volume（大体量）：即可从数百 TB 到数十数百 PB、甚至 EB 规模。

Variety（多样性）：即大数据包括各种格式和形态的数据。

Velocity（时效性）：即很多大数据需要在一定的时间限度下得到及时处理。

Veracity（准确性）：即处理的结果要保证一定的准确性。

Value（大价值）：即大数据包含很多深度的价值，大数据分析挖掘和利用带来巨大的商业价值。

启动 Hadoop 系统，当使用 bin/start-all.sh 命令启动时，请给出集群各进程启动顺序。

答：启动顺序：namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager

简述 HBase 的主要技术特点。

（1）列式存储

（2）表数据是稀疏的多维映射表

（3）读写的严格一致性

（4）提供很高的数据读写速度

（5）良好的线性可扩展性

（6）提供海量数据

（7）数据会自动分片

（8）对于数据故障，hbase 是有自动的失效检测和恢复能力。

（9）提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。

科学研究第一范式、第二范式、第三范式、第四范式。

第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)

第一范式：经验范式，以观察和实验为依据的研究。

第二范式：以建模和归纳为基础的理论学科和分析范式，又称为理论范式。

第三范式：以模拟复杂现象为基础的计算科学范式，又称为模拟范式。

第四范式：以数据考察为基础，联合理论、实验和模拟一体的数据密集计算的范式，数据被捕获或者由模拟器生成，利用软件处理，信息和知识存储在计算机中，科学家使用数据管理和统计学方法分析数据。
分布式系统的 CAP 理论。

CAP 一致性：所有节点在同一时间具有相同的数据。

可用性：保证每个请求的成功或失败都有相应。

分区容错性：系统中任意信息的丢失或失败不影响系统的继续运行。

CAP 定理：一个分布式系统不可能同时满足一致性、可用性、和分区容错性，最多只能同时满足两个系统需求。在考虑满足系统需求时，要根据实际需要来选择关注点，进而采用相应的策略。

CAP 选择：1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。
函数式语言的概念及特点，Map 及 Reduce 过程的含义及功能，Hadoop 分布式平台特点。

函数式语言的概念和特点：函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构，对调用块的调用者来说，每个块都有输入数据和经过加工处理后的输出数据。

Map 及 Reduce 过程的含义及功能：Map（映射）Reduce（化简）。Map 函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中，通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对，Reduce 函数用来对同一个键的值进行合并。

Hadoop 分布式平台特点：方便，健壮，可横向扩展，简单。