Disaster-Recovery-Strategien in AWS

11.8.2023 | 5 Minuten Lesezeit

Disaster Recovery (DR) ist ein elementarer Bestandteil der IT-Sicherheit für Unternehmen. Ein DR-Plan hilft dabei, sich auf den Ausfall kritischer Systeme oder Infrastrukturen vorzubereiten und diese schnellstmöglich wiederherzustellen. In den nachfolgenden Abschnitten werden wir DR-Strategie-Ansätze aufzeigen – exemplarisch anhand von AWS Architekturbeispielen.

Vor allem im regulierten Umfeld ergeben sich besondere Anforderungen an die Business Continuity Management (BCM)- und DR-Strategien. BCM ist ein essenzieller Aspekt für Unternehmen, um sicherzustellen, dass sie ihre Geschäftsprozesse auch unter extremen Bedingungen aufrechterhalten können. Regulierte Branchen wie Finanzdienstleister oder Versicherungen haben oftmals strikte BCM-Richtlinien. Diese ergeben sich u.a. aus gesetzlichen Vorgaben – ein Beispiel hierfür ist die Datenschutz-Grundverordnung oder die Versicherungsaufsichtlichen Anforderungen an die IT (VAIT). Die VAIT-Richtlinien wurden von der Bundesanstalt für Finanzdienstleistungsaufsicht eingeführt und legen spezifische Anforderungen an das IT-Risikomanagement und die IT-Governance für Versicherungsunternehmen fest. Die gesetzlichen Vorgaben umfassen u.a. die folgenden Bereiche:

IT-Resilienz: IT-Resilienz bezieht sich auf die Fähigkeit eines Unternehmens, Störungen, beispielsweise verursacht durch Cyberangriffe oder technische Ausfälle, zu bewältigen und den Geschäftsbetrieb zeitnah wieder aufzunehmen. Daher ist eine fundierte DR-Strategie von großer Bedeutung, um die fortlaufende Erbringung von Dienstleistungen zu gewährleisten.

Schutz der Kundendaten: Versicherungsunternehmen verarbeiten insbesondere sensible Kundendaten, wie personenbezogene Informationen, finanzielle Daten und Gesundheitsdaten. Eine DR-Strategie muss sicherstellen, dass diese Daten jederzeit verfügbar, geschützt und vor Datenverlust oder -manipulation bewahrt werden.

Geschäftskontinuität: Kontinuität von Geschäftsprozessen ist von großer Bedeutung, nicht nur für die Versicherungsbranche. Durch die Berücksichtigung von entsprechenden DR-Strategien können Versicherungsunternehmen sicherstellen, dass ihre Dienste auch während Ausfällen ununterbrochen laufen.

Risikoabwägung: Die Implementierung einer Disaster-Recovery-Strategie trägt dazu bei, bewusste Entscheidungen hinsichtlich verschiedener Ausfallszenarien zu treffen und auch zu dokumentieren. Hier findet eine Abwägung der Kosten der DR-Strategie gegenüber der Eintrittswahrscheinlichkeit des Ausfalls inkl. der daraus resultierenden Schäden statt.

Was ist eigentlich Disaster Recovery?

Disaster Recovery beschreibt die Planung und Implementierung von Maßnahmen zur Erreichung der IT-Resilienz. Ziel ist die schnellstmögliche Wiederaufnahme des Geschäftsbetriebs nach unvorhergesehenen Ereignissen wie bspw. Naturkatastrophen, menschlichem Versagen oder Cyberattacken. Eine gut durchdachte Disaster-Recovery-Strategie ist entscheidend, um Geschäftsunterbrechungen zu minimieren und das Vertrauen der Kunden aufrechtzuerhalten. Ein Disaster-Recovery-Plan beschreibt zwei zentrale Ziele:

Recovery Time Objective (RTO): Maximale Zeitspanne vom Beginn des Ausfalls bis zur Wiederherstellung des Geschäftsprozesses (Wie lange darf ein Geschäftsprozess ausfallen?).

Recovery Point Objective (RPO): Maximale Datenmenge, die verloren gehen darf (gemessen vom Zeitpunkt des Ausfalls bis zum Zeitpunkt der letzten Sicherung, die wiederhergestellt wird).

AWS Disaster-Recovery-Optionen

AWS bietet eine Vielzahl von DR-Optionen, die es Unternehmen ermöglichen, ihre Workloads in der Cloud zu schützen und eine hohe Verfügbarkeit zu gewährleisten.

Backup & Restore: Diese einfache Methode beinhaltet das regelmäßige Sichern der Daten und Systeme in AWS. Im Notfall werden diese aus den aktuellsten Sicherungen wiederhergestellt. Obwohl einfach umzusetzen, kann diese Methode längere Ausfallzeiten mit sich bringen, da die Wiederherstellung möglicherweise einige Zeit in Anspruch nimmt. Diese Methode eignet sich somit für Systeme, die schnell wiederherzustellen sind oder bei denen längere Ausfallzeiten keine geschäftskritischen Auswirkungen verursachen. Die Infrastruktur läuft ausschließlich in einer primären Region. Die sekundäre Region wird nur für ein Cross-Region-Backup verwendet, nicht aber für redundante Infrastruktur-Komponenten.

Quelle: AWS

Pilot Light: Diese Strategie beinhaltet die ständige Replikation eines Teils der Produktionsumgebung in einer sekundären Region. Es laufen keine aktiven Geschäftsprozesse in dieser Umgebung. Sie steht lediglich bereit, um im Notfall schnell und effizient hochgefahren zu werden, so dass der Produktionsbetrieb in dieser Umgebung fortgeführt werden kann. Diese Methode eignet sich für Systeme, deren Wiederherstellung aus Sicherungen nicht-tolerierbare Ausfallzeiten verursachen, während gleichzeitig die benötigte Zeit zum Hochfahren der Umgebung tolerierbar ist.

Quelle: AWS

Warm Standby: Hierbei handelt es sich um eine erweiterte Version der Pilot-Light-Methode. Ein Teil der Produktionsumgebung wird in einer sekundären Region dauerhaft betrieben, um die Ausfallzeit zu minimieren und eine schnellere Wiederherstellung zu ermöglichen. Im Unterschied zur Pilot Light-Methode ist die Warm-Standby-Umgebung im Notfall sofort einsetzbar und muss nicht erst hochgefahren werden. Sie muss jedoch noch skaliert werden, um vergleichbare Leistungsmerkmale wie die ausgefallene Produktionsumgebung zu erreichen.

Quelle: AWS

Active/Active: Diese fortschrittliche Strategie verteilt den Datenverkehr und die Workloads auf mehrere AWS-Regionen. Da Infrastruktur, Anwendung und Daten synchronisiert werden, erhöht dies die Ausfallsicherheit. Bei einem Ausfall einer Region erfolgt der automatische Failover in eine andere Region nahezu in Echtzeit.

Quelle: AWS

Entscheidungshilfe

Bei der Auswahl der DR-Strategien spielen mehrere Faktoren eine Rolle, u. a. Kosten, Geschäftskritikalität und Wiederanlaufzeiten. Das Backup- & Restore-Verfahren ist vergleichsweise kostengünstig, da es keine zusätzlichen Ressourcen im Standby-Modus bereithält. Dafür ist es das Verfahren mit der vergleichsweise längsten Wiederanlaufzeit. Das Active/Active-Szenario besitzt die gegensätzlichen Eigenschaften. Es verursacht aufgrund des dauerhaft hohen Ressourcenbedarfs vergleichsweise hohe Kosten, kann dafür im Störungsfall nahezu unterbrechungsfrei weiterarbeiten.

Um die Anforderungen an den DR-Plan zu ermitteln, wird zunächst eine Business-Impact-Analyse durchgeführt. Die Business-Impact-Analyse betrachtet die Auswirkung von Störungen auf die Geschäftsprozesse einer Organisation. Dabei wird das Schadenspotenzial, das durch die Beeinträchtigung des regulären Geschäftsbetriebs entsteht, über einen Zeitverlauf ermittelt. Schäden können dabei beispielsweise durch Umsatzausfall, Verletzung regulatorischer Vorgaben oder auch in der öffentlichen Wahrnehmung der Organisation entstehen. Erzeugt der Ausfall eines Geschäftsprozesses nach Ablauf einer definierten Zeitspanne einen nicht-tolerierbaren Schaden, so muss die Organisation sicherstellen, dass die zugrundeliegenden Systeme und Ressourcen innerhalb dieser Zeitspanne wiederhergestellt werden können.

Die Auswahl der geeigneten Disaster-Recovery-Option sollte sich also aus den maximal tolerierbaren Systemausfallzeiten und Datenverlustmengen, die in der Business-Impact-Analyse ermittelt wurden, sowie der benötigten Wiederanlaufzeit der jeweiligen DR-Option ergeben. Die Wiederherstellung der Systeme muss dabei regelmäßig geprüft und getestet werden, um die kritischen Vorgaben der Organisation nicht zu gefährden.

Die nachfolgende Abbildung zeigt für die unterschiedlichen DR-Strategien die Faktoren Kosten und RTO/RPO auf. Hierbei bewegen sich RTO/RPO in den Bereichen von mehreren Stunden bis hin zu (fast) Echtzeit. Im Allgemeinen sind für das Active/Active-Szenario mindestens doppelt so hohe Kosten für die Infrastruktur im Vergleich zum Backup & Restore-Szenario zu erwarten, da die Ressourcen redundant betrieben werden.

Fazit

AWS bietet Unternehmen unterschiedliche Ansätze für Disaster-Recovery-Strategien an. Diese unterscheiden sich vor allem bei den Aspekten RTO/RPO und den damit verbundenen Kosten für die Infrastruktur. Hierbei sollten Unternehmen immer das Kosten-Nutzen-Verhältnis der Strategie berücksichtigen. Die Investitionen in eine geeignete DR-Strategie ist somit nicht nur eine reine Vorsichtsmaßnahme, sondern im regulierten Umfeld auch zwingend erforderlich, um Geschäftskontinuität sicherzustellen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*innen

Nils Bauroth

Consultant

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Michael Schnitzler

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Nils Bauroth & Michael Schnitzler

Die Rolle von GitLab bei der Umsetzung des Digital Operational Resilience...

Der Digital Operational Resilience Act (DORA) ist eine EU-Verordnung, die seit dem 16. Januar 2023 in Kraft ist und ab dem 17. Januar 2025 verbindlich wird. In diesem Blogpost geht es darum aufzuzeigen, wie GitLab bei der Erfüllung von regulatorischen...

GitLab
Compliance
DevSecOps
Regulatorik
DORA-Verordnung

8.1.2025 | 5 Minuten Lesezeit

Nils Bauroth

Mehr Struktur in der Cloud mit Azure Landing Zones

Die Migration in die Cloud bringt einige Herausforderungen mit sich. Viele Unternehmen stehen vor der Frage, wie ein effizienter und sicherer Aufbau einer skalierbaren Cloud-Infrastruktur umzusetzen ist. Die Antwort auf diese Herausforderung liegt in...

Cloud
Azure
IT-Governance

4.8.2023 | 4 Minuten Lesezeit

Florian Moll

Nils Bauroth

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Jetzt für unseren Newsletter anmelden

Alles Wissenswerte auf einen Klick:
Unser Newsletter bietet dir die Möglichkeit, dich ohne großen Aufwand über die aktuellen Themen bei codecentric zu informieren.