Mejores prácticas para implementar Hadoop Server en CentOS/RHEL 7 - Parte 1


En esta serie de artículos, cubriremos todo el edificio Cloudera Hadoop Cluster Building con las mejores prácticas recomendadas por el proveedor y la industria.

La instalación del sistema operativo y los requisitos previos a nivel de sistema operativo son los primeros pasos para crear un clúster de Hadoop. Hadoop puede ejecutarse en varios tipos de plataforma Linux: CentOS, RedHat, Ubuntu, Debian, SUSE, etc.En producción en tiempo real, la mayoría de los clústeres de Hadoop se construyen sobre RHEL/CentOS, usaremos CentOS 7 para la demostración en esta serie de tutoriales.

En una organización, la instalación del sistema operativo se puede realizar mediante kickstart. Si se trata de un clúster de 3 a 4 nodos, la instalación manual es posible, pero si construimos un clúster grande con más de 10 nodos, es tedioso instalar el sistema operativo uno por uno. En este escenario, el método Kickstart entra en escena, podemos continuar con la instalación masiva usando kickstart.

Lograr un buen rendimiento de un entorno Hadoop depende del aprovisionamiento del hardware y software correctos. Por lo tanto, la creación de un clúster de producción de Hadoop implica mucha consideración con respecto al hardware y software.

En este artículo, analizaremos varios puntos de referencia sobre la instalación del sistema operativo y algunas de las mejores prácticas para implementar Cloudera Hadoop Cluster Server en CentOS/RHEL 7.

Consideraciones importantes y mejores prácticas para implementar Hadoop Server

Las siguientes son las mejores prácticas para configurar la implementación de Cloudera Hadoop Cluster Server en CentOS/RHEL 7.

  • Los servidores Hadoop no requieren servidores estándar empresariales para construir un clúster, requieren hardware básico.
  • En el clúster de producción, se recomienda tener de 8 a 12 discos de datos. De acuerdo con la naturaleza de la carga de trabajo, debemos decidir sobre esto. Si el clúster es para aplicaciones de computación intensiva, la mejor práctica es tener de 4 a 6 unidades para evitar problemas de E/S.
  • Las unidades de datos deben particionarse individualmente, por ejemplo, comenzando desde/data01 hasta/data10.
  • No se recomienda la configuración RAID para los nodos trabajadores, porque el propio Hadoop proporciona tolerancia a fallas en los datos al replicar los bloques en 3 de forma predeterminada. Entonces, JBOD es mejor para los nodos trabajadores.
  • Para los servidores maestros, RAID 1 es la mejor práctica.
  • El sistema de archivos predeterminado en CentOS/RHEL 7.x es XFS. Hadoop admite XFS, ext3 y ext4. El sistema de archivos recomendado es ext3, ya que se ha probado para un buen rendimiento.
  • Todos los servidores deben tener la misma versión de SO, al menos la misma versión menor.
  • Es una buena práctica tener hardware homogéneo (todos los nodos de trabajo deben tener las mismas características de hardware (RAM, espacio en disco, núcleo, etc.).
  • Según la carga de trabajo del clúster (Carga de trabajo equilibrada, Computación intensiva, E/S intensiva) y el tamaño, la planificación de recursos (RAM, CPU) por servidor será diferente.

Encuentre el siguiente ejemplo de partición de disco de los servidores de almacenamiento de 24 TB.

Instalación de CentOS 7 para la implementación del servidor Hadoop

Cosas que necesita saber antes de instalar el servidor CentOS 7 para Hadoop Server.

  • Una instalación mínima es suficiente para los servidores Hadoop (nodos de trabajo), en algunos casos, la GUI se puede instalar solo para servidores maestros o servidores de administración donde podemos usar navegadores para las interfaces de usuario web de las herramientas de administración.
  • La configuración de redes, nombre de host y otras configuraciones relacionadas con el sistema operativo se puede realizar después de la instalación del sistema operativo.
  • En tiempo real, los proveedores de servidores tendrán su propia consola para interactuar y administrar los servidores, por ejemplo: los servidores Dell tienen iDRAC, que es un dispositivo integrado con servidores. Con esa interfaz de iDRAC, podemos instalar el sistema operativo con una imagen del sistema operativo en nuestro sistema local.

En este artículo, hemos instalado el sistema operativo (CentOS 7) en la máquina virtual VMware. Aquí, no tendremos varios discos para realizar particiones. CentOS es similar a RHEL (misma funcionalidad), por lo que veremos los pasos para instalar CentOS.

1. Comience descargando la imagen ISO de CentOS 7.x en su sistema Windows local y selecciónela mientras inicia la máquina virtual. Seleccione "Instalar CentOS 7" como se muestra.

2. Seleccione el idioma, el idioma predeterminado será el inglés y haga clic en continuar.

3. Selección de software: seleccione "Instalación mínima" y haga clic en "Listo".

4. Establezca la contraseña de root, ya que nos pedirá que la establezcamos.

5. Destino de instalación: este es el paso importante a tener en cuenta. Necesitamos seleccionar el disco donde se debe instalar el sistema operativo, se debe seleccionar el disco dedicado para el sistema operativo. Haga clic en "Destino de instalación" y seleccione el disco, en tiempo real habrá varios discos allí, debemos seleccionar, preferiblemente "sda".

6. Otras opciones de almacenamiento: elija la segunda opción (configuraré el particionamiento) para configurar el particionamiento relacionado con el sistema operativo como/var,/var/log,/home,/tmp,/opt,/swap.

7. Una vez hecho esto, comience la instalación.

8. Una vez completada la instalación, reinicie el servidor.

9. Inicie sesión en el servidor y establezca el nombre de host.

# hostnamectl status
# hostnamectl set-hostname tecmint
# hostnamectl status

En este artículo, hemos analizado los pasos de instalación del sistema operativo y las mejores prácticas para la partición del sistema de archivos. Todos estos son pautas generales, de acuerdo con la naturaleza de la carga de trabajo, es posible que debamos concentrarnos en más matices para lograr el mejor rendimiento del clúster. La planificación de clústeres es un arte para el administrador de Hadoop. En el próximo artículo profundizaremos en los requisitos previos del nivel del sistema operativo y el refuerzo de la seguridad.