Alta disponibilidad y Recuperación ante Desastres

A medida que su negocio crece y la cantidad de datos almacenados aumenta gradualmente, la cuestión de preservar la información y proporcionar acceso ininterrumpido a los usuarios se vuelve crucial. Una práctica básica para mantener la seguridad e integridad de los datos es la realización de copias de seguridad periódicas. Sin embargo, para lograr una tolerancia a fallos óptima, es recomendable desarrollar una estrategia de alta disponibilidad y recuperación ante desastres.

Alta Disponibilidad (HA) y Recuperación ante Desastres (DR) son dos conceptos cruciales en el campo de los servicios de TI, ambos orientados a minimizar el tiempo de inactividad y la pérdida de datos.

  1. Alta Disponibilidad (HA): Esto se refiere a la capacidad de un sistema o componente para permanecer operativo durante un largo período de tiempo. El objetivo es minimizar el tiempo de inactividad, garantizando que el sistema esté disponible cuando sea necesario. Esto se consigue a menudo mediante mecanismos de redundancia y conmutación por error. Por ejemplo, si un servidor falla, el sistema cambia automáticamente a un servidor de respaldo. El grado de disponibilidad suele expresarse como un porcentaje, siendo habitual que los sistemas de alta disponibilidad aspiren al 99,99 % o más (conocido también como “cuatro nueves” o “cinco nueves” de disponibilidad). La alta disponibilidad es importante para los servicios de TI porque garantiza que las aplicaciones y los datos críticos sean accesibles cuando los usuarios los necesitan, lo cual es esencial para mantener las operaciones comerciales y la productividad.

  2. Recuperación ante Desastres (DR): Se trata de un conjunto de políticas, herramientas y procedimientos que permiten la recuperación o la continuidad de la infraestructura tecnológica y los sistemas vitales tras un desastre natural o provocado por el ser humano. El objetivo es minimizar el impacto de un desastre para que una organización pueda continuar operando o reanudar rápidamente las funciones críticas para su misión. Un buen plan de DR incluye copias de seguridad regulares, replicación de datos y un proceso de recuperación detallado. La recuperación ante desastres es importante porque ayuda a las organizaciones a proteger sus datos y su infraestructura de TI frente a los efectos de incidentes graves, garantizando la continuidad del negocio y minimizando el riesgo de pérdida de datos.

En resumen, tanto la alta disponibilidad como la recuperación ante desastres son importantes para los servicios de TI para asegurar que los sistemas estén siempre disponibles cuando se necesiten y que los datos y las operaciones estén protegidos frente a desastres y interrupciones. Ayudan a mantener la continuidad del negocio, proteger los datos y minimizar el tiempo de inactividad, todo lo cual es crítico para el éxito y la resiliencia de cualquier organización.

Las soluciones HA y DR siempre se diseñan y aplican de forma local, dependiendo de la organización de su infraestructura de servidores y de los recursos disponibles. Desafortunadamente, no existe una solución universal en este caso y se requiere un enfoque complejo.

Implementación

La solución de Alta Disponibilidad suele incluir dos centros de datos distribuidos geográficamente. Un centro de datos actúa como sitio primario o activo, proporcionando a los clientes acceso a la plataforma. El segundo centro de datos actúa como sitio secundario o en espera, manteniendo una réplica constantemente actualizada de todos los componentes del sistema, incluida la base de datos, los servicios backend y el sitio web. En caso de una falla en el sitio primario, el sitio secundario puede asumir el control, garantizando un servicio ininterrumpido.

La Recuperación ante Desastres implica crear un plan de acciones a realizar cuando la infraestructura principal está dañada y no es totalmente operativa. Este plan describe los pasos para recuperar la infraestructura de TI y restaurar las operaciones normales. Las comprobaciones y actualizaciones periódicas de este plan son esenciales para garantizar la preparación y la capacidad de ejecutar las acciones necesarias de manera oportuna para minimizar el tiempo de inactividad y la pérdida de datos. El plan de DR suele incluir procedimientos para la copia de seguridad de datos, la recuperación del sistema y la conmutación por error a sitios o sistemas alternativos.

Además de lo anterior, es necesario contar con algún tipo de árbitro intermedio y un sistema de monitorización que se ejecute por separado, que verifique el estado de los servidores y gestione su conmutación en caso de fallo. Dicho sistema tampoco es aplicable de forma universal y debe implementarse localmente utilizando las herramientas y los scripts disponibles. Alternativamente, puede cambiar manualmente los centros de datos en función de las alertas del sistema de monitorización, pero esto aumentará el tiempo de inactividad según la capacidad de respuesta del personal encargado.

Para mantener el acceso de los usuarios y la conectividad de los dispositivos, es importante conservar el acceso a la red. Para ello, es necesario asegurarse de que la dirección de red permanezca igual cuando se cambie el centro de datos. Esto puede conseguirse de dos maneras.

  • La mejor forma es cambiar la dirección IP del servidor antiguo al nuevo. De este modo, el nombre de dominio se redirigirá al nuevo servidor, los rastreadores se comunicarán con el nuevo servidor y los usuarios, muy probablemente, no notarán la falla. Pero con centros de datos distribuidos geográficamente, la migración de la dirección IP no siempre es posible.

  • Si no tiene la opción de migrar la dirección IP, puede reconfigurar el nombre de dominio (registro A de DNS) a la dirección IP del nuevo servidor. Esto preservará el acceso de los usuarios así como la conexión de los dispositivos configurados con el dominio. Desafortunadamente, los dispositivos configurados para transferir datos a una IP dejarán de estar en línea y deberán reconfigurarse.

La planificación e implementación de soluciones de Alta Disponibilidad (HA) y Recuperación ante Desastres (DR) se considera una actividad a medida que puede requerir la participación y consulta de especialistas técnicos de Navixy.

Licencias

El aspecto clave del esquema de licenciamiento de la plataforma es que una sola clave de licencia se aplica a una única instancia activa a la vez. No puede tener dos o más instancias de Navixy ejecutándose simultáneamente con la misma clave de licencia.

Por esta razón, se recomienda mantener una réplica de la plataforma inactiva o en espera. Esta réplica solo debe activarse y ponerse en línea en caso de un desastre o fallo del servidor primario. Este enfoque garantiza el cumplimiento del esquema de licenciamiento y, al mismo tiempo, proporciona una solución de respaldo para la continuidad del negocio.

Mantenimiento

Si bien implementar una solución de alta disponibilidad es un paso crucial para asegurar la continuidad del negocio y minimizar el tiempo de inactividad, no basta con configurarla y dejarla desatendida. Las soluciones arquitectónicas de alta disponibilidad requieren mantenimiento y supervisión constantes para funcionar de manera efectiva.

El mantenimiento implica comprobaciones y actualizaciones periódicas para garantizar que todos los componentes del sistema funcionen según lo previsto. Esto incluye verificar el estado de los componentes de hardware y software, realizar copias de seguridad regulares y aplicar parches y actualizaciones según sea necesario. También es esencial realizar pruebas periódicas de DR de los procedimientos de conmutación por error y recuperación para garantizar que funcionen según lo esperado en caso de una falla.

La monitorización es igualmente importante, ya que permite la detección y resolución temprana de problemas potenciales antes de que provoquen fallos del sistema o tiempo de inactividad. Se pueden utilizar herramientas de monitorización para rastrear el rendimiento del sistema, detectar anomalías y alertar a los administradores sobre posibles incidencias. Esto posibilita una intervención proactiva para prevenir o minimizar el impacto de las fallas.

En conclusión, el mantenimiento y la monitorización son componentes críticos de las soluciones de alta disponibilidad y recuperación ante desastres. Aseguran que el sistema siga siendo fiable y eficaz frente a posibles fallos, y permiten una intervención proactiva para prevenir o minimizar el impacto del tiempo de inactividad. El mantenimiento y la monitorización periódicos también ayudan a garantizar el cumplimiento de los requisitos reglamentarios y de las normas del sector para la protección de datos y la continuidad del negocio.

Última actualización

¿Te fue útil?