顶级Hadoop管理员面试问题与回答_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

10、什么是hadoop-env.sh下的文件和在文件应设置为Hadoop的工作上的变量?

这个文件提供hadoop的运行环境，包括以下variables-hadoop_classpath，java_home和hadoop_log_dir。java_home变量应为Hadoop运行。

11)除了利用JPS的命令还有任何其他什么方法，你可以检查是否它是工作。

使用命令/ etc / init.d/hadoop-0.20-namenode状态。

12)在一个MapReduce系统，如果HDFS块大小为64 MB，有3个文件的大小127mb，64K和65mb与fileinputformat。在这种情况下，有多少输入将很可能是由Hadoop框架组成。

2个分别为127 MB和65 MB的文件或者一个是64KB的文件。

13)该命令是检验HDFS是否被破坏?

hadoop fsck(文件系统检查)命令用于检查丢失块。

14)列出了一些使用Hadoop生态系统的案例

文本挖掘，图分析，语义分析，情感分析，推荐系统。

15)你怎样让一个Hadoop不工作

Hadoop的工作–清除工作ID。

16)我想看到所有的工作在Hadoop集群上运行。你该怎么做?

使用命令–Hadoop作业–列表，给出了在Hadoop集群上运行的工作列表。

17)是否可以在多个集群中复制文件?如果是，你怎么能做到这一项呢?

是的，它可能的复制文件到多个Hadoop集群，这可以使用分布式复制实现。distcp命令用于内部或跨集群复制。

18)什么是最好的运行Hadoop操作系统?

Ubuntu和Linux是首选的运行Hadoop的操作系统。虽然Windows操作系统也可以用来运行Hadoop的但它会导致一些问题，所以并不推荐。

19)运行Hadoop的网络要求是什么?

SSH是需要运行启动服务器进程从属节点。

一个密码需要更少的SSH在主人，机器，和所有的苦工之间的连接。

20)将mapred.output.compress属性设置为true，以确保所有的输出文件压缩在高效的空间使用Hadoop集群上。在特定情况下，如果群集用户不需要对工作进行压缩数据。你建议他做什么?

如果用户不想压缩数据的一个特定的工作就应该创建自己的配置文件并且设置mapred.output.compress属性为false。这个配置文件之后作为一个资源加载到相关工作。

21)什么是实施一次最佳实践的NameNode?

它始终是在一个单独的独立的机器更好地部署第二个Namenode。当次级节点部署在一个单独的机器不受主节点干扰的操作。

22)应该多长时间给NameNode重新格式化吗?

Namenode不能格式化。这样做会导致数据完全的丢失。NameNode是一次格式化开始之后，它创造了整个文件系统的元数据和命名空间ID目录结构。

23)如果Hadoop产生了100个任务工作，并且其中一个任务失败。Hadoop该怎么做呢?

任务将再次开始一个新的TaskTracker，并且默认设置逾期不超过4次，(默认值是可以改变的)，工作将会失败。

24)你如何添加和删除节点的Hadoop集群?

在HDFS集群中添加新节点，主机名应该被添加到文件然后在DataNode和TaskTracker开始在新的节点。

删除或退役从HDFS集群的节点，主机名应该是从slaves–refreshnodes删除文件执行。

25)您增加复制级别，但注意到该数据已复制。什么原因导致错误?

其实没有任何错误，如果有大量的数据，因为数据复制通常需要在时间的基础上的数据大小作为集群进行数据复制，它可能需要几个小时。

Hadoop管理面试题

1、当你第一次Hadoop集群启动安装过程，你会怎样设置安装程序?

2、你将如何安装新组件或添加到现有的Hadoop集群服务?

3、如果Hive的元数据服务在下降，那么将对Hadoop集群有什么影响?

4、当你建立一个Hadoop集群，你将如何决集群的大小?

5、你怎么在同一集群运行Hadoop和实时进程?

6、如果你得到一个拒绝连接的案例-当登录到一台机器上的集群，可能是什么原因?你将如何解决这个问题?

7、你如何识别和解决长期运行的工作?

8、你怎么决定一个NameNode和Hadoop服务的堆内存的限制?

9、如果Hadoop服务在Hadoop集群上运行缓慢，什么是它的根源，你将如何鉴别呢?

10、有多少数据节点可以运行在一个单一的Hadoop集群?

11、在Hadoop2.0和Hadoop 1.0配置

12、在高可用性的情况下，如果连接待机和活跃节点丢失。这种Hadoop集群将如何影响?