¿Qué es QUORUM Disk y Fencing Wars?


Hola amigos. Esta vez pensé en responder en detalle a una de nuestras lectoras (Danielle) pregunta formulada en los comentarios porque es posible que también hayas enfrentado este problema cuando hay un entorno agrupado bajo tu responsabilidad de mantener.

A continuación se muestra la pregunta de Daniel Bello.

“Tengo una pregunta: intenté configurar un dispositivo virtual de cerca en un entorno virtual, pero no me funciona, en alguna parte de mi configuración el nodo no vuelve al clúster después de una falla. Así que agregué un disco de quórum y finalmente mi clúster funciona bien (el nodo se cae y después de la falla vuelve al clúster), entonces mi pregunta es: ¿cuál es la diferencia entre un dispositivo de cerca y un disco de quórum en un virtual ¿ambiente?"

Puede referirse a lo que es un dispositivo de vallado consultando nuestra serie de artículos anteriores de Clustering a continuación.

  1. Fencing and Adding a Failover to Clustering – Part 3

Primero veamos qué es un disco de quórum.

¿Qué es Quorum Disk?

Un disco de quórum es el tipo de almacenamiento de las configuraciones del clúster. Actúa como una base de datos que contiene los datos relacionados con el entorno agrupado y el deber del disco de quórum es informar al clúster qué nodo/nodos deben mantener en estado VIVO. Permite el acceso concurrente desde todos los demás nodos para leer/escribir datos.

Cuando la conectividad cae entre los nodos (puede ser un nodo o más de uno), el quórum aísla los que no tienen conexión y mantiene los servicios en funcionamiento con los nodos activos que tiene. Deja fuera de servicio los nodos sin conectividad del clúster.

Ahora pasemos a la pregunta. Esto parece un entorno que tiene 2 nodos y uno ha caído. La situación que enfrentó Danielle parece una "Guerra de Esgrima" entre los dos nodos activos.

Considere que hay un entorno agrupado en el que no se agrega ningún disco de quórum a la configuración. Este clúster tiene 2 nodos y actualmente un nodo ha fallado. En este escenario particular, la conectividad entre el nodo 1 y el nodo 2 se pierde por completo.

Entonces, el nodo 1 ve que el nodo 2 ha fallado porque no puede establecer una conexión con él y el nodo 1 decide cercar el nodo 2. Al mismo tiempo, el nodo 2 ve que el nodo 1 ha fallado porque no puede establecer una conexión con él y el nodo 2 decide para cercar el nodo 1 también.

Dado que el nodo 1 ha cercado al nodo 2, se hace cargo de los servicios y recursos que están agrupados. Dado que no hay un disco de quórum para verificar esta situación en el nodo 2, y el nodo 2 puede reiniciar todos los servicios en el servidor sin ninguna conexión con el nodo 1.

Como mencioné anteriormente, el nodo 2 también cerca al nodo 1 porque no puede ver ninguna conexión al nodo 1 desde el nodo 2 y lo que sucede a continuación es que el nodo 1 reinicia todos los servicios en el servidor porque no hay quórum para verificar el estado del nodo 1 también.

Esto se identifica como una guerra de esgrima

Ahora, este ciclo continuará eternamente hasta que un ingeniero detenga los servicios manualmente o los servidores se apaguen o la conexión de red se establezca con éxito entre los nodos. Aquí es donde un disco de quórum viene a ayudar. El proceso de votación en las configuraciones de quórum es el mecanismo que evita que el ciclo anterior cause.

  1. Clustered environments are used everywhere for the safety of data and services to give end users maximum uptime and live data experience.
  2. A fence device is used in clustered environments to isolate a node whose state is unknown to other nodes. Cluster will use fence device to automatically fence (remove) the failed node and keep the services up and running and start the failover over processes.
  3. A quorum disk is not essential to have in a clustered environment, but better to have one in a 2 node cluster to avoid fencing wars.
  4. It’s not a problem having a quorum disk in a cluster where there are more than 2 nodes but it’s less likely are the chances of happening a fencing war in a this particular environment. Hence, it’s less important to have a quorum disk in a 3 or more node cluster than a 2 node cluster.
  5. By the way it’s good to have a quorum disk in a multi node cluster environment, so that you can execute user customized health checks for among the nodes.

Importante: tenga en cuenta que existe un límite en el que puede agregar nodos al quórum. Puede agregarle un máximo de 16 nodos.

Espero que hayas disfrutado del artículo. Manténgase en contacto con tecmint para obtener guías técnicas de Linux más prácticas.