大数据系列(3)——Hadoop集群完全分布式坏境搭建

  前言

  我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题。

  技术准备

  VMware虚拟机、CentOS 6.8 64 bit

  安装流程

  我们先来回顾上一篇我们完成的单节点的Hadoop环境配置,已经配置了一个CentOS 6.8 并且完成了java运行环境的搭建,Hosts文件的配置、计算机名等诸多细节。

  其实完成这一步之后我们就已经完成了Hadoop集群的搭建的一半的工作了,因为我们知道通过虚拟机搭建所搭建的好处就是 直接拷贝机器 。多台同步进行操作,减少分别配置的时间消耗浪费。这也是虚拟化技术所带来的优势。

  下面,咱们进去分布式系统的详细操作过程。

  1、首先需要在VMWare中将之前创建的单实例的计算机进行拷贝。

  这里根据之前第一篇文章的规划,我们至少需要再克隆出三台计算机,作为DataNode数据节点的数据存储。之前的上一台机器作为Master主节点进行管理。

  这里先来梳理一下整个Hadoop集群的物理架构图,大家有一个直接的观念和认识,上表中已经和明确了,总共需要5台服务器来使用,四台用来搭建Hadoop集群使用,另外一台( 可选 )作为MySQL等外围管理Hadoop集群来使用。

  我们在开发的时候一般也是直接通过连接外围的这台机器来管理Hadoop整个集群。

  根据上面的物理规划图应该对整个架构有一个清晰的认识了,好,咱们进行实操。

  关于在VMWare中进行虚拟机的拷贝是一个比较简单的过程。截图如下:

  然后,就是下一步就行了,这里需要记住的是,一定要选择 克隆一个完整的 而不是快照。

  然后,根据计算机名输入机器名就可以了。克隆之后的机器如下:

  2、配置各个Slave节点的机器信息。

  关于各个Slave服务器的配置基本分为如下基本部分:

  首先需要手动更改各个从节点的 计算机名和Hosts文件 (必须!)

  然后配置各个从节点的内存值,在第一篇的文章中我已经分析过了,这里可以将这里的内存值设置的比Master节点少点,(土豪公司忽略!)

  最后配置的就是存储了,这个自己根据之前的计算公式计算出来就可以了。

  首先,进入各个机器中更改Hosts文件和计算机名,在上一篇文章我已经介绍过了,大家可以上一篇翻阅,这里直接写出脚本如下:

  vim /etc/sysconfig/network

  vim /etc/hosts

  计算机名和Hosts配置文件按照之前规划完成就行了,同样网络的IP地址也是按照规划设置成固定的地址。

  在配置完这一切之后,重启完各个机器之后,确保 各个节点之间可以ping 通(重点!!!)。

  然后剩下的内存配置,直接关闭掉虚拟机,在VMWare中进行设置就可以了,很简单。

  这里根据需要自行调整,然后如果可以的话,尽量将主节点Master的CUP处理器设置成多路多核,这样设置的原因,我第一篇文章中就已经详细分析过了。

  至此,各个服务器的基础配置已经完成了。