Mejores prácticas para implementar Hadoop Server en CentOS / RHEL 7 - Parte 1


En esta serie de artículos, cubriremos todo el edificio Cloudera Hadoop Cluster Building con las mejores prácticas recomendadas por el proveedor y la industria.

La instalación del sistema operativo y los requisitos previos a nivel de sistema operativo son los primeros pasos para crear un clúster de Hadoop. Hadoop puede ejecutarse en varios tipos de plataforma Linux: CentOS, RedHat, Ubuntu, Debian, SUSE, etc.En producción en tiempo real, la mayoría de los clústeres de Hadoop se construyen sobre RHEL/CentOS, usaremos CentOS 7 para la demostración en esta serie de tutoriales.

En una organización, la instalación del sistema operativo se puede realizar mediante kickstart. Si se trata de un clúster de 3 a 4 nodos, es posible la instalación manual, pero si construimos un clúster grande con más de 10 nodos, es tedioso instalar el sistema operativo uno por uno. En este escenario, el método Kickstart entra en escena, podemos proceder con la instalación masiva usando kickstart.

Lograr un buen rendimiento de un entorno Hadoop depende del aprovisionamiento del hardware y software correctos. Por lo tanto, la creación de un clúster de producción de Hadoop implica mucha consideración con respecto al hardware y software.

En este artículo, analizaremos varios puntos de referencia sobre la instalación del sistema operativo y algunas de las mejores prácticas para implementar Cloudera Hadoop Cluster Server en CentOS/RHEL 7.

Consideraciones importantes y mejores prácticas para implementar Hadoop Server

Las siguientes son las mejores prácticas para configurar la implementación de Cloudera Hadoop Cluster Server en CentOS/RHEL 7.

  • Hadoop servers do not require enterprise standard servers to build a cluster, it requires commodity hardware.
  • In the production cluster, having 8 to 12 data disks are recommended. According to the nature of the workload, we need to decide on this. If the cluster is for compute-intensive applications, having 4 to 6 drives is best practice to avoid I/O issues.
  • Data drives should be partitioned individually, for example – starting from /data01 to /data10.
  • RAID configuration is not recommended for worker nodes, because Hadoop itself providing fault-tolerance on data by replicating the blocks into 3 by default. So JBOD is best for worker nodes.
  • For Master Servers, RAID 1 is the best practice.
  • The default filesystem on CentOS/RHEL 7.x is XFS. Hadoop supports XFS, ext3, and ext4. The recommended file-system is ext3 as it is tested for good performance.
  • All the servers should be having the same OS version, at-least same minor release.
  • It is best practice to have homogeneous hardware (all worker nodes should have the same hardware characteristics (RAM, disk space & Core etc).
  • According to the cluster workload (Balanced Workload, Compute Intensive, I/O Intensive) and size, resource (RAM, CPU) planning per server will get differ.

Encuentre el siguiente ejemplo de partición de disco de los servidores de almacenamiento de 24 TB.

Instalación de CentOS 7 para la implementación del servidor Hadoop

Cosas que necesita saber antes de instalar el servidor CentOS 7 para Hadoop Server.

  • Minimal installation is enough for Hadoop Servers (worker nodes), in some cases, GUI can be installed only for Master servers or Management servers where we can use browsers for Web UIs of Management tools.
  • Configuring networks, hostname, and other OS-related settings can be done after OS installation.
  • In real-time, server vendors will be having their own console to interact and manage the servers, for example – Dell servers are having iDRAC which is a device, embedded with servers. Using that iDRAC interface we can install OS with having an OS image in our local system.

En este artículo, hemos instalado el sistema operativo (CentOS 7) en la máquina virtual VMware. Aquí, no tendremos varios discos para realizar particiones. CentOS es similar a RHEL (misma funcionalidad), por lo que veremos los pasos para instalar CentOS.

1. Comience por descargar la imagen ISO de CentOS 7.x en su sistema Windows local y selecciónela mientras inicia la máquina virtual. Seleccione "Instalar CentOS 7" como se muestra.

2. Seleccione el idioma, el idioma predeterminado será el inglés y haga clic en continuar.

3. Selección de software: seleccione "Instalación mínima" y haga clic en "Listo".

4. Configure la contraseña de root, ya que nos pedirá que la configuremos.

5. Destino de instalación: este es el paso importante a tener en cuenta. Necesitamos seleccionar el disco donde se debe instalar el sistema operativo, se debe seleccionar el disco dedicado para el sistema operativo. Haga clic en "Destino de instalación" y seleccione el disco, en tiempo real habrá varios discos allí, debemos seleccionar, preferiblemente "sda".

6. Otras opciones de almacenamiento: elija la segunda opción (configuraré el particionamiento) para configurar el particionamiento relacionado con el sistema operativo como/var,/var/log,/home,/tmp,/opt,/swap.

7. Una vez hecho esto, comience la instalación.

8. Una vez completada la instalación, reinicie el servidor.

9. Inicie sesión en el servidor y configure el nombre de host.

# hostnamectl status
# hostnamectl set-hostname tecmint
# hostnamectl status

En este artículo, analizamos los pasos de instalación del sistema operativo y las mejores prácticas para la partición del sistema de archivos. Todos estos son pautas generales, de acuerdo con la naturaleza de la carga de trabajo, es posible que debamos concentrarnos en más matices para lograr el mejor rendimiento del clúster. La planificación de clústeres es un arte para el administrador de Hadoop. En el próximo artículo, profundizaremos en los requisitos previos del nivel del sistema operativo y el refuerzo de la seguridad.