Búsqueda de sitios web

Cómo configurar Apache Hadoop en CentOS


La biblioteca de software Apache Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. El proyecto Apache™ Hadoop® desarrolla software de código abierto para aplicaciones confiables, escalables y distribuidas. informática.

El proyecto incluye estos módulos:

  • Hadoop Common: las utilidades comunes que admiten los otros módulos de Hadoop.
  • Sistema de archivos distribuido Hadoop (HDFS™): un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de las aplicaciones.
  • Hadoop YARN: un marco para la programación de trabajos y la gestión de recursos del clúster.
  • Hadoop MapReduce: un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

Este artículo lo ayudará a instalar y configurar paso a paso el clúster hadoop de un solo nodo usando Hadoop en centos.

Instalar Java

Antes de instalar hadoop, asegúrese de tener Java instalado en su sistema. Utilice este comando para verificar la versión de Java instalado.

java -version
java version "1.7.0_75"
Java(TM) SE Runtime Environment (build 1.7.0_75-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

Para instalar o actualizar Java, siga las instrucciones paso a paso.

El primer paso es descargar la última versión de Java desde el sitio web oficial de Oracle.

cd /opt/
wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/7u79-b15/jdk-7u79-linux-x64.tar.gz"
tar xzf jdk-7u79-linux-x64.tar.gz

Es necesario configurarlo para utilizar una versión más reciente de Java utilizando alternativas. Utilice los siguientes comandos para hacerlo.

cd /opt/jdk1.7.0_79/
alternatives --install /usr/bin/java java /opt/jdk1.7.0_79/bin/java 2
alternatives --config java
There are 3 programs which provide 'java'.

  Selection    Command
-----------------------------------------------
*  1           /opt/jdk1.7.0_60/bin/java
 + 2           /opt/jdk1.7.0_72/bin/java
   3           /opt/jdk1.7.0_79/bin/java

Enter to keep the current selection[+], or type selection number: 3 [Press Enter]

Ahora es posible que también deba configurar la ruta de los comandos javac y jar usando el comando alternativo.

alternatives --install /usr/bin/jar jar /opt/jdk1.7.0_79/bin/jar 2
alternatives --install /usr/bin/javac javac /opt/jdk1.7.0_79/bin/javac 2
alternatives --set jar /opt/jdk1.7.0_79/bin/jar
alternatives --set javac /opt/jdk1.7.0_79/bin/javac

El siguiente paso es configurar las variables de entorno. Utilice los siguientes comandos para configurar estas variables correctamente

  • Configurar la variable JAVA_HOME
export JAVA_HOME=/opt/jdk1.7.0_79
  • Configurar la variable JRE_HOME
export JRE_HOME=/opt/jdk1.7.0_79/jre
  • Configurar la variable PATH
export PATH=$PATH:/opt/jdk1.7.0_79/bin:/opt/jdk1.7.0_79/jre/bin

Instalación de Apache Hadoop

Después de configurar el entorno java. Empecemos a instalar Apache Hadoop.

El primer paso es crear una cuenta de usuario del sistema para usarla en la instalación de Hadoop.

useradd hadoop
passwd hadoop

Ahora necesitas configurar las claves ssh para el usuario hadoop. Usando el siguiente comando para habilitar el inicio de sesión ssh sin contraseña.

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
exit

Ahora descargue la última versión disponible de hadoop desde su sitio oficial hadoop.apache.org.

cd ~
wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
tar xzf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 hadoop

Ahora el siguiente paso es establecer los usos de las variables de entorno por parte de hadoop.

Edite el archivo ~/.bashrc y agregue las siguientes listas de valores al final del archivo.

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Luego, aplique los cambios en el entorno de ejecución actual.

source ~/.bashrc

edite el archivo $HADOOP_HOME/etc/hadoop/hadoop-env.sh y establezca la variable de entorno JAVA_HOME

export JAVA_HOME=/opt/jdk1.7.0_79/

Ahora comienza con la configuración básica del clúster de un solo nodo de Hadoop.

Primero edite los archivos de configuración de hadoop y realice los siguientes cambios.

 cd /home/hadoop/hadoop/etc/hadoop

Comencemos editando core-site.xml

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Luego edite hdfs-site.xml:

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

y edite mapred-site.xml:

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

finalmente edite hilo-site.xml:

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Ahora formatee el namenode usando el siguiente comando:

hdfs namenode -format

Para iniciar todos los servicios de Hadoop, utilice el siguiente comando:

cd /home/hadoop/hadoop/sbin/
start-dfs.sh
start-yarn.sh

Para comprobar si todos los servicios se han iniciado correctamente, utilice el comando 'jps':

jps

Deberías ver una salida como esta.

26049 SecondaryNameNode
25929 DataNode
26399 Jps
26129 JobTracker
26249 TaskTracker
25807 NameNode

Ahora puede acceder a los servicios de Hadoop en su navegador en: http://your-ip-address:8088/.

¡¡¡Gracias!!!