Beliebte Suchanfragen
//

Disaster-Recovery-Strategien in AWS

11.8.2023 | 5 Minuten Lesezeit

Disaster Recovery (DR) ist ein elementarer Bestandteil der IT-Sicherheit für Unternehmen. Ein DR-Plan hilft dabei, sich auf den Ausfall kritischer Systeme oder Infrastrukturen vorzubereiten und diese schnellstmöglich wiederherzustellen. In den nachfolgenden Abschnitten werden wir DR-Strategie-Ansätze aufzeigen – exemplarisch anhand von AWS Architekturbeispielen.

Vor allem im regulierten Umfeld ergeben sich besondere Anforderungen an die Business Continuity Management (BCM)- und DR-Strategien. BCM ist ein essenzieller Aspekt für Unternehmen, um sicherzustellen, dass sie ihre Geschäftsprozesse auch unter extremen Bedingungen aufrechterhalten können. Regulierte Branchen wie Finanzdienstleister oder Versicherungen haben oftmals strikte BCM-Richtlinien. Diese ergeben sich u.a. aus gesetzlichen Vorgaben – ein Beispiel hierfür ist die Datenschutz-Grundverordnung oder die Versicherungsaufsichtlichen Anforderungen an die IT (VAIT). Die VAIT-Richtlinien wurden von der Bundesanstalt für Finanzdienstleistungsaufsicht eingeführt und legen spezifische Anforderungen an das IT-Risikomanagement und die IT-Governance für Versicherungsunternehmen fest. Die gesetzlichen Vorgaben umfassen u.a. die folgenden Bereiche:

IT-Resilienz: IT-Resilienz bezieht sich auf die Fähigkeit eines Unternehmens, Störungen, beispielsweise verursacht durch Cyberangriffe oder technische Ausfälle, zu bewältigen und den Geschäftsbetrieb zeitnah wieder aufzunehmen. Daher ist eine fundierte DR-Strategie von großer Bedeutung, um die fortlaufende Erbringung von Dienstleistungen zu gewährleisten.

Schutz der Kundendaten: Versicherungsunternehmen verarbeiten insbesondere sensible Kundendaten, wie personenbezogene Informationen, finanzielle Daten und Gesundheitsdaten. Eine DR-Strategie muss sicherstellen, dass diese Daten jederzeit verfügbar, geschützt und vor Datenverlust oder -manipulation bewahrt werden.

Geschäftskontinuität: Kontinuität von Geschäftsprozessen ist von großer Bedeutung, nicht nur für die Versicherungsbranche. Durch die Berücksichtigung von entsprechenden DR-Strategien können Versicherungsunternehmen sicherstellen, dass ihre Dienste auch während Ausfällen ununterbrochen laufen.

Risikoabwägung: Die Implementierung einer Disaster-Recovery-Strategie trägt dazu bei, bewusste Entscheidungen hinsichtlich verschiedener Ausfallszenarien zu treffen und auch zu dokumentieren. Hier findet eine Abwägung der Kosten der DR-Strategie gegenüber der Eintrittswahrscheinlichkeit des Ausfalls inkl. der daraus resultierenden Schäden statt.

Was ist eigentlich Disaster Recovery?

Disaster Recovery beschreibt die Planung und Implementierung von Maßnahmen zur Erreichung der IT-Resilienz. Ziel ist die schnellstmögliche Wiederaufnahme des Geschäftsbetriebs nach unvorhergesehenen Ereignissen wie bspw. Naturkatastrophen, menschlichem Versagen oder Cyberattacken. Eine gut durchdachte Disaster-Recovery-Strategie ist entscheidend, um Geschäftsunterbrechungen zu minimieren und das Vertrauen der Kunden aufrechtzuerhalten. Ein Disaster-Recovery-Plan beschreibt zwei zentrale Ziele:

Recovery Time Objective (RTO): Maximale Zeitspanne vom Beginn des Ausfalls bis zur Wiederherstellung des Geschäftsprozesses (Wie lange darf ein Geschäftsprozess ausfallen?).

Recovery Point Objective (RPO): Maximale Datenmenge, die verloren gehen darf (gemessen vom Zeitpunkt des Ausfalls bis zum Zeitpunkt der letzten Sicherung, die wiederhergestellt wird).

AWS Disaster-Recovery-Optionen

AWS bietet eine Vielzahl von DR-Optionen, die es Unternehmen ermöglichen, ihre Workloads in der Cloud zu schützen und eine hohe Verfügbarkeit zu gewährleisten.

Backup & Restore: Diese einfache Methode beinhaltet das regelmäßige Sichern der Daten und Systeme in AWS. Im Notfall werden diese aus den aktuellsten Sicherungen wiederhergestellt. Obwohl einfach umzusetzen, kann diese Methode längere Ausfallzeiten mit sich bringen, da die Wiederherstellung möglicherweise einige Zeit in Anspruch nimmt. Diese Methode eignet sich somit für Systeme, die schnell wiederherzustellen sind oder bei denen längere Ausfallzeiten keine geschäftskritischen Auswirkungen verursachen. Die Infrastruktur läuft ausschließlich in einer primären Region. Die sekundäre Region wird nur für ein Cross-Region-Backup verwendet, nicht aber für redundante Infrastruktur-Komponenten.

Quelle: AWS

Pilot Light: Diese Strategie beinhaltet die ständige Replikation eines Teils der Produktionsumgebung in einer sekundären Region. Es laufen keine aktiven Geschäftsprozesse in dieser Umgebung. Sie steht lediglich bereit, um im Notfall schnell und effizient hochgefahren zu werden, so dass der Produktionsbetrieb in dieser Umgebung fortgeführt werden kann. Diese Methode eignet sich für Systeme, deren Wiederherstellung aus Sicherungen nicht-tolerierbare Ausfallzeiten verursachen, während gleichzeitig die benötigte Zeit zum Hochfahren der Umgebung tolerierbar ist.

Quelle: AWS

Warm Standby: Hierbei handelt es sich um eine erweiterte Version der Pilot-Light-Methode. Ein Teil der Produktionsumgebung wird in einer sekundären Region dauerhaft betrieben, um die Ausfallzeit zu minimieren und eine schnellere Wiederherstellung zu ermöglichen. Im Unterschied zur Pilot Light-Methode ist die Warm-Standby-Umgebung im Notfall sofort einsetzbar und muss nicht erst hochgefahren werden. Sie muss jedoch noch skaliert werden, um vergleichbare Leistungsmerkmale wie die ausgefallene Produktionsumgebung zu erreichen.

Quelle: AWS

Active/Active: Diese fortschrittliche Strategie verteilt den Datenverkehr und die Workloads auf mehrere AWS-Regionen. Da Infrastruktur, Anwendung und Daten synchronisiert werden, erhöht dies die Ausfallsicherheit. Bei einem Ausfall einer Region erfolgt der automatische Failover in eine andere Region nahezu in Echtzeit.

Quelle: AWS

Entscheidungshilfe

Bei der Auswahl der DR-Strategien spielen mehrere Faktoren eine Rolle, u. a. Kosten, Geschäftskritikalität und Wiederanlaufzeiten. Das Backup- & Restore-Verfahren ist vergleichsweise kostengünstig, da es keine zusätzlichen Ressourcen im Standby-Modus bereithält. Dafür ist es das Verfahren mit der vergleichsweise längsten Wiederanlaufzeit. Das Active/Active-Szenario besitzt die gegensätzlichen Eigenschaften. Es verursacht aufgrund des dauerhaft hohen Ressourcenbedarfs vergleichsweise hohe Kosten, kann dafür im Störungsfall nahezu unterbrechungsfrei weiterarbeiten.

Um die Anforderungen an den DR-Plan zu ermitteln, wird zunächst eine Business-Impact-Analyse durchgeführt. Die Business-Impact-Analyse betrachtet die Auswirkung von Störungen auf die Geschäftsprozesse einer Organisation. Dabei wird das Schadenspotenzial, das durch die Beeinträchtigung des regulären Geschäftsbetriebs entsteht, über einen Zeitverlauf ermittelt. Schäden können dabei beispielsweise durch Umsatzausfall, Verletzung regulatorischer Vorgaben oder auch in der öffentlichen Wahrnehmung der Organisation entstehen. Erzeugt der Ausfall eines Geschäftsprozesses nach Ablauf einer definierten Zeitspanne einen nicht-tolerierbaren Schaden, so muss die Organisation sicherstellen, dass die zugrundeliegenden Systeme und Ressourcen innerhalb dieser Zeitspanne wiederhergestellt werden können.

Die Auswahl der geeigneten Disaster-Recovery-Option sollte sich also aus den maximal tolerierbaren Systemausfallzeiten und Datenverlustmengen, die in der Business-Impact-Analyse ermittelt wurden, sowie der benötigten Wiederanlaufzeit der jeweiligen DR-Option ergeben. Die Wiederherstellung der Systeme muss dabei regelmäßig geprüft und getestet werden, um die kritischen Vorgaben der Organisation nicht zu gefährden.

Die nachfolgende Abbildung zeigt für die unterschiedlichen DR-Strategien die Faktoren Kosten und RTO/RPO auf. Hierbei bewegen sich RTO/RPO in den Bereichen von mehreren Stunden bis hin zu (fast) Echtzeit. Im Allgemeinen sind für das Active/Active-Szenario mindestens doppelt so hohe Kosten für die Infrastruktur im Vergleich zum Backup & Restore-Szenario zu erwarten, da die Ressourcen redundant betrieben werden.

Fazit

AWS bietet Unternehmen unterschiedliche Ansätze für Disaster-Recovery-Strategien an. Diese unterscheiden sich vor allem bei den Aspekten RTO/RPO und den damit verbundenen Kosten für die Infrastruktur. Hierbei sollten Unternehmen immer das Kosten-Nutzen-Verhältnis der Strategie berücksichtigen. Die Investitionen in eine geeignete DR-Strategie ist somit nicht nur eine reine Vorsichtsmaßnahme, sondern im regulierten Umfeld auch zwingend erforderlich, um Geschäftskontinuität sicherzustellen.

Beitrag teilen

//

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.