第1讲 大数据概述第1讲大数据概述章节单元测验1、第三次信息化浪潮的标志是:
A、个人电脑的普及
B、互联网的普及
C、云计算、大数据、物联网技术的普及
D、虚拟现实技术的普及
2、就数据的量级而言,1PB数据是多少TB?
A、512
B、1024
C、1000
D、2048
3、以下关于云计算、大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析
4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL
5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm
6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala
7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel
8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4
9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段
10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期
11、大数据的4V特性包括:
A、数据量大
B、数据新颖
C、数据类型繁多
D、处理速度快
E、价值密度低
12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了四种范式,具体包括:
A、猜想科学
B、实验科学
C、理论科学
D、计算科学
E、数据密集型科学
13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果
14、大数据的四种主要计算模式包括:
A、批处理计算
B、流计算
C、框计算
D、图计算
E、查询分析计算
15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS
开放讨论1、试述大数据时代的“数据爆炸特性”。
2、试例举身边利用大数据解决社会生活问题的实例。
3、试述大数据对思维方式的重要影响。
第2讲 大数据处理架构Hadoop大数据处理架构Hadoop单元测验1、YARN组件出现在Hadoop的哪个版本中
A、Hadoop2.0
B、Hadoop1.0
C、Hadoop0.21
D、Hadoop0.22
2、以下对Hadoop的说法错误的是
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
3、在Hadoop的组件中,属于数据仓库的是
A、MapReduce
B、Pig
C、Hive
D、HBase
4、以下名词解释不正确的是
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
5、Hadoop的创始人是
A、Doug Lee
B、Doug Cutting
C、Larry Page
D、Shawn Fanning
6、以下哪些组件是Hadoop的生态系统的组件
A、MapReduce
B、HDFS
C、Oracle
D、HBase
7、下列属于Hadoop特性的是
A、高可靠性
B、高可扩展性
C、高成本性
D、高容错性
第3讲 分布式文件系统HDFS分布式文件系统HDFS单元测验1、HDFS的命名空间不包含
A、目录
B、文件
C、块
D、字节
2、对HDFS通信协议的理解错误的是
A、HDFS通信协议都是构建在IoT协议基础之上的
B、名称节点和数据节点之间则使用数据节点协议进行交互
C、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
3、采用多副本冗余存储的优势不包含
A、加快数据传输速度
B、节约存储空间
C、容易检查数据错误
D、保证数据可靠性
4、假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是
A、start-hdfs.sh,stop-hdfs.sh
B、start-dfs.sh,stop-dfs.sh
C、start-dfs.sh,stop-hdfs.sh
D、start-hdfs.sh,stop-dfs.sh
5、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫
A、名称节点,数据节点
B、数据节点,名称节点
C、名称节点,主节点
D、从节点,主节点
6、下面关于分布式文件系统HDFS的描述正确的是:
A、分布式文件系统HDFS是一种关系型数据库
B、分布式文件系统HDFS是Google Bigtable的一种开源实现
C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
D、分布式文件系统HDFS比较适合存储大量零碎的小文件
7、以下对名称节点理解正确的是
A、名称节点通常用来保存元数据
B、名称节点的数据保存在内存中
C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D、名称节点用来负责具体用户数据的存储
8、以下对数据节点理解正确的是
A、数据节点用来存储具体的文件内容
B、数据节点的数据保存在磁盘中
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点通常只有一个
9、HDFS只设置唯一一个名称节点带来的局限性包括
A、性能的瓶颈
B、命名空间的限制
C、隔离问题
D、集群的可用性
10、以下HDFS相关的shell命令不正确的是
A、hadoop fs -ls