Высокая доступность и аварийное восстановление

По мере роста вашего бизнеса и постепенного увеличения объема сохраняемых данных вопрос сохранности информации и обеспечения непрерывного доступа пользователей становится критически важным. Базовой практикой для поддержания безопасности и целостности данных является выполнение регулярных резервных копий. Однако для достижения оптимальной отказоустойчивости целесообразно разработать стратегию высокой доступности и восстановления после катастроф (HA и DR).

Высокая доступность (HA) и восстановление после катастроф (DR) — это два ключевых понятия в области IT-услуг, направленные на минимизацию времени простоя и потери данных.

  1. Высокая доступность (HA): Это способность системы или компонента оставаться работоспособными в течение длительного времени. Цель — минимизировать время простоя, обеспечивая доступность системы тогда, когда она необходима. Чаще всего это достигается с помощью механизмов избыточности и переключения при отказе. Например, если один сервер выходит из строя, система автоматически переключается на резервный сервер. Уровень доступности обычно выражается в процентах: системы с высокой доступностью стремятся к 99,99% и выше (так называемая «четыре девятки» или «пять девяток»). Высокая доступность важна для IT‑услуг, так как обеспечивает доступ к критически важным приложениям и данным тогда, когда это требуется пользователям, что необходимо для поддержания бизнес‑операций и производительности.

  2. Восстановление после катастроф (DR): Это набор политик, инструментов и процедур, позволяющих восстановить или продолжить работу критически важной технологической инфраструктуры и систем после природных или антропогенных катастроф. Цель — минимизировать воздействие катастрофы, чтобы организация могла продолжать работать или быстро возобновить ключевые функции. Хороший план DR включает регулярные резервные копии, репликацию данных и детализированный процесс восстановления. Восстановление после катастроф важно, поскольку помогает организациям защитить свои данные и IT‑инфраструктуру от последствий серьезных инцидентов, обеспечивая непрерывность бизнеса и минимизируя риск потери данных.

Подводя итог: и высокая доступность, и восстановление после катастроф важны для IT‑услуг, поскольку они обеспечивают постоянную доступность систем по мере необходимости, а также защиту данных и операций от катастроф и сбоев. Они помогают поддерживать непрерывность бизнеса, защищать данные и минимизировать время простоя — все то, что критично для успеха и устойчивости любой организации.

Решения HA и DR всегда проектируются и применяются локально, в зависимости от организации вашей серверной инфраструктуры и доступных ресурсов. К сожалению, универсального решения в этом случае не существует, требуется комплексный подход.

Реализация

Решение для обеспечения высокой доступности обычно включает два географически распределенных дата‑центра. Один дата‑центр выступает в роли основного (активного) сайта, обеспечивая клиентам доступ к платформе. Второй дата‑центр служит вторичным (резервным) сайтом и поддерживает постоянно обновляемую копию всех компонентов системы, включая базу данных, backend‑сервисы и веб‑сайт. В случае сбоя на основном сайте вторичный сайт может взять на себя работу, обеспечивая непрерывность сервиса.

Восстановление после катастроф предполагает создание плана действий на случай повреждения основной инфраструктуры и ее частичной или полной неработоспособности. В этом плане описываются шаги по восстановлению IT‑инфраструктуры и возобновлению нормальной работы. Необходимо регулярно проверять и обновлять этот план, чтобы быть готовыми и иметь возможность выполнить требуемые действия своевременно, минимизируя время простоя и потерю данных. План DR часто включает процедуры резервного копирования данных, восстановления систем и переключения на альтернативные сайты или системы.

Кроме того, требуется наличие некоего промежуточного арбитра и отдельной системы мониторинга, которая будет проверять состояние серверов и осуществлять их переключение в случае отказа. Такая система также не является универсальной и должна быть реализована локально с использованием доступных вам инструментов и скриптов. В качестве альтернативы вы можете выполнять ручное переключение дата‑центров на основании оповещений системы мониторинга, но это приведет к увеличению времени простоя в зависимости от оперативности ответственных лиц.

Для поддержания доступа пользователей и подключения устройств важно сохранить сетевой доступ. Для этого необходимо убедиться, что сетевой адрес остается прежним при смене дата‑центра. Это можно обеспечить двумя способами.

  • Лучший вариант — перенести IP‑адрес со старого сервера на новый. В этом случае доменное имя будет перенаправлено на новый сервер, трекеры будут связываться с новым сервером, и пользователи, скорее всего, не заметят сбоя. Однако при географически распределенных дата‑центрах миграция IP‑адреса не всегда возможна.

  • Если у вас нет возможности мигрировать IP‑адрес, можно перенастроить доменное имя (DNS A‑запись) на IP‑адрес нового сервера. Это сохранит доступ пользователей, а также соединение устройств, настроенных на доменное имя. К сожалению, устройства, настроенные на передачу данных по IP, больше не будут онлайн и потребуют перенастройки.

Планирование и внедрение решений высокой доступности (HA) и восстановления после катастроф (DR) рассматривается как индивидуальная деятельность, которая может потребовать участия и консультации технических специалистов Navixy.

Лицензирование

Ключевой аспект схемы лицензирования платформы состоит в том, что один лицензионный ключ применяется только к одному активному экземпляру в каждый момент времени. Нельзя запускать два или более экземпляров Navixy одновременно с одним и тем же лицензионным ключом.

По этой причине рекомендуется держать реплику платформы в спящем или неактивном состоянии. Эту реплику следует активировать и выводить в сеть только в случае катастрофы или сбоя основного сервера. Такой подход обеспечивает соблюдение схемы лицензирования и одновременно предоставляет резервное решение для непрерывности бизнеса.

Обслуживание

Хотя внедрение решения высокой доступности является важным шагом для обеспечения непрерывности бизнеса и минимизации простоев, недостаточно просто настроить его и оставить без внимания. Архитектурные решения высокой доступности требуют постоянного обслуживания и мониторинга для эффективной работы.

Обслуживание включает регулярные проверки и обновления, чтобы убедиться, что все компоненты системы работают должным образом. Это включает проверку состояния аппаратных и программных компонентов, выполнение регулярных резервных копий и применение патчей и обновлений по мере необходимости. Также важно периодически проводить тесты DR процедур переключения и восстановления, чтобы убедиться в их работоспособности в случае реального сбоя.

Мониторинг не менее важен, так как он позволяет раннее обнаружение и устранение потенциальных проблем до того, как они приведут к отказам системы или простоям. Инструменты мониторинга могут использоваться для отслеживания производительности системы, выявления аномалий и оповещения администраторов о возможных проблемах. Это позволяет предпринять проактивные меры для предотвращения или минимизации последствий отказов.

В заключение, обслуживание и мониторинг являются критическими компонентами решений высокой доступности и восстановления после катастроф. Они гарантируют, что система остается надежной и эффективной в условиях потенциальных отказов и позволяют предпринимать проактивные меры для предотвращения или минимизации последствий простоев. Регулярное обслуживание и мониторинг также помогают обеспечивать соответствие нормативным требованиям и отраслевым стандартам по защите данных и непрерывности бизнеса.

Последнее обновление

Это было полезно?