Disaster Recovery für Windows NT
Natürlich hofft man immer, dass es nicht passiert – aber wenn es doch einmal zu einem Desaster kommt, sollte man gewappnet sein und wissen, wie man seinen Windows NT-Server
schnellstmöglich wieder zum Laufen bringt.
Schiefgehen kann bei einem NT-System viel: Ein Fehler in der Software oder der Konfiguration kann dazu führen, dass der Rechner nicht mehr startet. Der Serverraum kann ausbrennen. Die
Festplatte kann beschädigt werden oder irgendeine andere Hardwarekomponente verweigert ihren Dienst. Was auch immer die Ursache ist, das Problem ist stets das gleiche: Der Server läuft
nicht mehr, die Benutzer können nicht mehr zugreifen und ihre Arbeit bleibt liegen.
Grundsätzlich gilt es natürlich, eine derartige Situation überhaupt zu vermeiden. Immerhin können drei der vier oben genannten Fälle über redundante Komponenten und Systeme generell
vermieden werden, wenn auch mit einigen Investitionen. Nur die wirklich grossen Katastrophen wie ein Brand im Rechnerraum, Sabotage am System und dergleichen mehr lassen sich nicht so
einfach ausschliessen.
Insofern umfasst das Disaster Recovery mehrere Bereiche. Dazu zählen einerseits die regelmässigen Massnahmen, um Systeme wiederherstellen zu können, wie beispielsweise die Datensicherung
und die Pflege von Notfalldisketten. Es umfasst andererseits aber auch technische Massnahmen, um den Ausfall eines Servers kompensieren zu können. Last but not least beinhaltet Disaster
Recovery aber auch Überlegungen und Massnahmen für den Worst Case, die grösstmögliche Katastrophe.
Denn ein Schaden an einer Festplatte muss kein Desaster sein, wenn man darauf vorbereitet ist. Und selbst der Brand im Rechnerraum bedeutet nicht unbedingt eine vollendete Katastrophe,
sondern unter Umständen nur einige Aufräum- und Renovationsarbeiten sowie eine schweren Herzens zahlende Versicherung.
Die Routinevorsorge
Bei den regelmässigen Vorbeugemassnahmen ist vor allem das Backup unerlässlich. Eine regelmässige und in kurzen Abständen erfolgende Datensicherung ist die beste Basis dafür, gravierende
Datenverluste zu vermeiden. Das Erstellen von Backups ist zwar etwas lästig, lässt sich dafür aber kostengünstig durchführen. Ein gutes SCSI-Bandlaufwerk oder auch eine SCSI-Jukebox kostet
heute nicht mehr allzu viel Geld. Und auch die entsprechende Software bewegt sich in einem preislich durchaus überschaubaren Rahmen.
Wichtig ist dabei, den Fokus auf die richtigen Daten zu legen. Dabei lassen sich im Kern die drei Bereiche Systemdateien, Programmfiles und die eigentlichen Daten unterscheiden. Letztere
sind am kritischsten, da ein Verlust zum Teil katastrophale Folgen haben kann. Je sensibler und wertvoller die Informationen sind, desto mehr Aufwand muss auch betrieben werden, um Verluste
zu vermeiden.
In jedem Fall ist aber eine tägliche oder, besser, nächtliche Datensicherung eine Grundvoraussetzung. Dabei werden zumindest die sich verändernden Daten abgelegt. Ein solches
inkrementelles Backup spart Zeit und Bandkapazität. Eine Komplettsicherung erfolgt dann erst am Ende einer Woche. Der Nachteil bei dieser Vorgehensweise besteht darin, dass der Vorgang der
Wiederherstellung länger dauert, da nach der letzten Komplettsicherung die verschiedenen inkrementellen Sicherungen Schritt für Schritt eingespielt werden müssen. Programm- und
Systemdateien können in längeren Abständen gesichert werden, solange sie keinen wesentlichen Veränderungen unterliegen.
Der doppelte Domänencontroller
Bei Windows NT ist der kritische Bereich bei den Systemdateien die Registry und dort insbesondere die SAM, die Benutzerkontendatenbank. Diese sollte in eine tägliche Sicherung einbezogen
werden. Die Datensicherung allein bietet aber keine optimale Sicherheit. Denn wenn das Problem abends auftritt, sind zumindest die Änderungen des letzten Tages verloren. Und das kann schon
zuviel sein. Hier muss mit ergänzenden Massnahmen wie gespiegelten Festplatten gearbeitet werden, auf die weiter unten noch eingegangen wird.
Was die Benutzerkontendatenbank betrifft: Ergänzend zur Sicherung der Daten sollte neben einem primären Domänencontroller (PDC) immer auch ein Backup-Domänencontroller (BDC) vorhanden
sein. Die wichtigen und kritischen Benutzerdaten mit ihren SIDs (Security IDs) werden dann zwischen den beiden Systemen automatisch repliziert und sind auch beim Ausfall eines der beiden
Systeme verfügbar.
Zu den Routinearbeiten gehört neben der Datensicherung auch eine regelmässige Kontrolle der Systeme. Dazu müssen die Log-Dateien der Datensicherungsprogramme ebenso analysiert werden wie
das Systemprotokoll von Windows NT. Damit können Fehler bei Datensicherung und Replikation erkannt werden. Oftmals zeigen sich im Protokoll aber auch schon anstehende Probleme, wenn
beispielsweise für einen SCSI-Adapter viele Fehlermeldungen angezeigt werden. Neben den Windows-NT-Werkzeugen gibt es hier eine Vielzahl von Systemmanagement-Tools, mit denen eine solche
Server-Überwachung zentralisiert und über Regeln auch in hohem Masse automatisiert werden kann. Beispiele wären etwa Intels LANDesk oder IBMs Tivoli-Suite.
Backup-Tools für alle Belange
Die nächste Frage ist, welches Sicherungsprogramm denn verwendet werden soll. Mit Windows NT wird ein Backup-Programm geliefert, das allerdings nur rudimentäre Funktionen bietet. Immerhin
lässt sich damit aber die Registry sichern. Es ist aber von seiner Funktionalität und Steuerbarkeit allenfalls für einen einzelnen, lokalen Server wirklich geeignet. Als Alternative gibt es
eine ganze Fülle von Backup-Lösungen am Markt. Diese lassen sich in drei Kategorien einteilen. Es gibt einfachere Lösungen, die zwar mehr können als NT-Backup selbst, die aber fast
ausschliesslich auf die reine Sicherung eines oder weniger NT-Systeme fokussiert sind. Dann sind die beiden marktführenden Systeme zu nennen, die technisch das Mittelfeld darstellen:
ArcServeIT von Cheyenne/Computer Associates und BackupExec von Veritas. Diese Systeme gibt es für mehrere Plattformen mit Agents für unterschiedliche Betriebssysteme und Anwendungsserver
wie beispielsweise Microsofts SQL Server. Hier wird je nach Variante auch die Möglichkeit geboten, eine grössere Zahl von Servern zentralisiert zu sichern.
Im oberen Marktsegment schliesslich gibt es dann Lösungen beispielsweise von Legato mit dem Networker, IBM mit ADSM und CA mit dem CA-Unicenter/TNG, die auf eine unternehmensweite
Datensicherung fokussiert sind. Diese Systeme machen auch nur Sinn, wenn die Sicherung in einer heterogenen IT-Infrastruktur das Ziel ist, da der Preis ihrer Leistungsfähigkeit eine relativ
hohe Komplexität ist. Auf der anderen Seite lassen sich auch Systeme wie BackupExec beispielsweise mit ADSM integrieren.
Im Zusammenhang mit Backup-Lösungen sind ferner auch die diversen Cloning- und Imaging-Werkzeuge zu nennen, über die sich Partitionen rasant erfassen und im Bedarfsfall wieder
restaurieren lassen. Zu den bekanntesten Vertretern zählen PowerQuests Drive Image Pro oder Ghost von Symantec.
Dedizierte Recovery-Tools
Interessant für das Thema der Disaster Recovery ist ArcServeIT, das über eine spezielle Disaster-Recovery-Option verfügt. Damit kann von einer Diskette aus eine vollständige
Wiederherstellung eines NT-Systems angestossen werden.
NT selbst hat mit Rdisk.exe noch ein weiteres Werkzeug, das für die Wiederherstellung von Systemen von Bedeutung ist. Und auch in den Registry-Editoren finden sich Befehle, mit denen
Teile von Systeminformationen gesichert werden können. Hier ist aber einige Vorsicht geboten, wie weiter unten noch ausgeführt wird.
Schliesslich gibt es von Winternals noch eine Reihe von Tools, die Hilfe bei der Wiederherstellung von Systemen bieten. Diese Lösungen verfolgen jeweils das Ziel, Änderungen bei Windows NT von der DOS-Ebene aus durchzuführen. Das Tool NT Recover erlaubt es beispielsweise, über eine serielle Verbindung auf einen gecrashten NT-Rechner zuzugreifen. Winternals vertreibt auch das Werkzeug Ntfsdos.exe, mit dem von DOS aus auf NTFS zugegriffen werden kann.
Allerdings handelt es sich dabei um eigentliche Notlösungen. Wenn man ein Werkzeug benötigt, um das letzte Administratoren-Kennwort zu verändern, dann hat man offensichtlich einiges
falsch gemacht. Denn man sollte mehr als ein Administratoren-Konto haben und das eingebaute Konto in der Regel nur für Notfälle nutzen - mit einem Kennwort, das für alle Fälle im Tresor
aufbewahrt wird. Ausserdem ist immer zu überlegen, wie viel Aufwand man eigentlich treiben kann.
Die Produkte von Winternals sind allerdings eher der «Bastler»-Ecke zuzuordnen; sie dienen grösstenteils dem Zugriff auf ein nicht mehr zugängliches System und erlauben das Kopieren von
Dateien darauf. Die Erfahrung zeigt aber, dass eine Systemwiederherstellung beispielsweise über die Disaster Recovery Option von ArcServeIT im Problemfall ungleich schneller funktioniert
als der Versuch, ein defektes System über manuelle Eingriffe wieder zum Laufen zu bringen. Und generell gilt eben, dass die Vermeidung von Desastern der deutlich bessere und sinnvollere
Ansatz ist.
Stolpersteine und Probleme
Eine wichtige Erkenntnis ist, dass ein abgestürztes NT-System sich meistens wieder booten lässt. Selbst wenn beim Aufstarten erst einmal eine Bluescreen-Meldung erscheint, gibt es meist
noch Möglichkeiten. Zum einen läuft das System manchmal wieder, wenn ein Kaltstart statt eines Resets durchgeführt wird. Zum anderen sollten beim Booten solcher Systeme CDs aus dem Laufwerk
entfernt werden. Fehlerhafte, selbstgebrannte Scheiben zeichnen oft ebenfalls für Bluescreens beim Booten verantwortlich. Wenn man erst einmal versucht, solche Ursachen auszuschliessen,
lässt sich manche Systemwiederherstellung vermeiden.
Wenn sich Windows NT dennoch nicht mehr starten lässt, hängt die weitere Vorgehensweise von den vorab ergriffenen Massnahmen ab. Die Reparaturfunktion, die Windows NT über seine
Boot-Disketten bietet, ist bei defekten Systemdateien ein sehr guter Ansatz, da dabei sowohl die Systemkonfiguration - soweit sie nicht beschädigt ist - als auch die Daten und
Zugriffsrechte unverändert bleiben. Allerdings kann die Notfall-Diskette auf Domänencontrollern mit Rdisk.exe nicht permanent aktualisiert werden, da das Volumen der Registry hier schnell
die Kapazität einer Diskette übersteigen kann. Eine regelmässig aktualisierte Notfalldiskette ist aber Voraussetzung für eine erfolgreiche Bewältigung dieses Schritts, wenn die
Konfigurationsdateien beschädigt sind.
Bei defekter Hardware lässt sich das Problem oftmals durch einen simplen Tausch von Komponenten im System bewerkstelligen. Wenn wichtige Bauteile in identischer Form vorrätig sind oder
ein Support-Vertrag mit einem Hersteller abgeschlossen wurde, kann so ein sehr schneller Ersatz erfolgen. Einige Hersteller wie etwa Hewlett-Packard bieten heute für NT-Installationen schon
Standard-Verträge mit einer garantierten Verfügbarkeit von 99,9 Prozent, was immerhin weniger als 9 Stunden Ausfallzeit in einem Jahr entspricht.
Die Krux mit geänderten Konfigurationen
Ein generelles Problem bei der Wiederherstellung stellt veränderte Hardware dar. Da in der Registry von Windows NT Informationen über die Hardwarekomponenten abgelegt werden, lässt sich
ein System nicht eins zu eins auf einer anderen Plattform wieder herstellen. Hier ist eine vorherige Installation von Windows NT, die anschliessende Sicherung von Daten und eine
Wiederherstellung von Konfigurationsinformationen im System erforderlich.
Damit stellt sich dann in Teilen aber schon wieder die Frage, wie Konfigurationsänderungen schnell nachvollzogen werden können. Zum einen muss - und auch das gehört wieder zu einer
professionellen und zuverlässigen Vorbereitung - genau dokumentiert werden, welche Einstellungen bei einem Server wie geändert worden sind. Zum anderen muss dann aber auch mit einer
Automatisierung einer Konfigurationsanpassung gearbeitet werden. Der mit dem Option Pack gelieferte Windows Scripting Host (WSH) bietet dafür eine gute Basis, da Registry-Parameter darüber
gesteuert werden können. Hier lassen sich vorab Scripts definieren, die bei einem neuen Server nur noch ausgeführt werden müssen, um alle Konfigurationsmanipulationen nachvollziehen zu
können. Zugriffsrechte werden dagegen überwiegend über die Datensicherung wiederhergestellt. Für Systemdateien bietet sich der ab dem Service Pack 4 verfügbare Security Configuration
Manager (SCM) an, mit dem sowohl für Systemdateien als auch Registry-Parameter in einer Konfigurationsdatei festgelegt werden kann, welche Zugriffsrechte gelten sollen. Diese können dann
auf ein wiederhergestelltes System mit einem Befehl adaptiert werden.
Bei allen diesen Überlegungen spielt auch die Geschwindigkeit des Recovery eine wichtige Rolle. Es darf eben keine Situation entstehen, in der das System für längere Zeit nicht verfügbar
ist. Hier gibt es keinen Spielraum für Basteleien. Je mehr vorbereitet und automatisiert wurde, desto schneller ist ein System auch wieder lauffähig.
Zu den besonders kritischen Basteleien gehört die Sicherung von Teilen der Registry und ihre Wiederherstellung auf anderen Systemen. Die Möglichkeit, dass sich ein System durch diese
Vorgehensweise komplett verabschiedet, ist erfahrungsgemäss besonders hoch. Man sollte davon - vor allem beim Disaster Recovery, bei dem die Zeit zählt und nicht noch mehr Fehler passieren
dürfen - unbedingt die Finger lassen.
Ein weiteres, oftmals unterschätztes Problem stellt die Sicherheit dar. Sowohl die Notfalldiskette als auch die Bänder der Datensicherung müssen gut geschützt - also in einem feuerfesten
Tresor - aufbewahrt werden. Natürlich darf die Sicherung dabei auch an einer anderen physischen Lokation als dem Serverraum bereitstehen. Unter diesem Aspekt liegt das Problem vor allem
darin, dass die Informationen auf den genannten Medien nicht geschützt sind. Backup-Daten lassen sich auch ohne Zugriffsrechte wiederherstellen und sind dann offen für den Zugriff. Und
sowohl die Notfalldiskette als auch eine vollständige Datensicherung eines Domänencontrollers enthalten die SAM und damit auch die Hashs (Ableitungen) der Kennwörter, die sich mit einem
überschaubaren Aufwand entschlüsseln lassen. Diese Disketten und Bänder sind also sehr sensibel zu behandeln, um hier keine Sicherheitslücken entstehen zu lassen.
Systeme mit hoher Verfügbarkeit
Kein Konzept zur Wiederherstellung ist aber so gut wie die Vorbeugung. Das beginnt beim oben bereits angesprochenen BDC als Ergänzung zum PDC. Bei Servern mit wichtigen Daten sollte immer
mit gespiegelten Festplatten oder RAID-Systemen gearbeitet werden. Damit kann dem Ausfall einer Festplatte vorgebeugt werden. Redundante Netzteile und Hot-Plug-Komponenten sowohl bei
Festplatten als zunehmend auch bei anderen Komponenten wie Netzwerkadaptern sind bei Servern heute zunehmend eine Selbstverständlichkeit.
Wer noch mehr Sicherheit benötigt, muss dann zu Cluster-Lösungen greifen. Vor allem im Bereich der Failover-Cluster gibt es für Windows NT mittlerweile ein sehr breites Angebot. Das
reicht von der Enterprise Edition und Microsofts Cluster Server über die Produkte von Herstellern wie beispielsweise NCR bis hin zu spezialisierten Lösungen einzelner Anbieter, die eine
Verfügbarkeit von sage und schreibe 99,999 Prozent versprechen.
Eines aber ist klar: Je mehr man sich absichern möchte, desto mehr muss man dafür ausgeben. Ein Cluster erfordert nun mal zwei Systeme und kostet damit schon deshalb mindestens das
Doppelte eines einzelnen Servers.
Die Vermeidung des GAU
Man kann auch noch einen Schritt weiter gehen, um auch für den Worst Case bzw. den grössten anzunehmenden Unfall gewappnet zu sein, bei dem ein Rechenzentrum nicht mehr verfügbar ist. Für
diese Bedürfnisse gibt es diverse Anbieter von Ausweichrechenzentren, mit denen man entsprechende Verträge aufbauen kann.
Eine andere Alternative ist die Realisierung von Clustern über WAN-Verbindungen hinweg und damit an getrennten Standorten. Das ist allerdings wegen der erforderlichen hohen
Leitungskapazität ein ausgesprochen teures Unterfangen. Ein erster Schritt kann aber schon die Unterbringung der beiden Maschinen eines Clusters, von redundanten Datenträgern in einem
System oder von PDC und BDC in getrennten Räumen eines Gebäudes sein. Hier lassen sich die erforderlichen Leitungskapazitäten noch sehr einfach und vergleichsweise günstig bereitstellen.
Gerade diese letzteren Massnahmen machen aber auch deutlich, dass ein Desaster praktisch nie unvermeidbar ist. Letztlich geht es hier immer um ein Abwägen zwischen den möglichen
Investitionen im Vorfeld und dem Aufwand und Risiko nach einem möglichen Crash.
Die wichtigsten Massnahmen
Ordner
|
Funktion
|
Datensicherung
|
Die wichtigste Vorsorge ist die Datensicherung. Denn wenn alles schief läuft, kann man zumindest die meisten Informationen wieder herstellen.
|
Dezentralität
|
Die Daten müssen, und wenn es nur über Sicherungsbänder ist, auch an einer anderen physischen Lokation vorhanden sein, um bei einem grossen Desaster nicht direkt betroffen zu sein.
|
Cluster
|
Doppelt vorhandene Server bieten eine gute Basis, um beim Ausfall eines Systems ohne Unterbruch weiterarbeiten zu können.
|
Spiegelung und RAID
|
Festplatten müssen bei kritischen Daten immer redundant ausgelegt werden, sei es über Spiegelung oder RAID-Systeme. Hardwarelösungen sind dabei zu bevorzugen.
|
Redundante Komponenten
|
Netzteile, Netzwerk-Adapter und andere Komponenten sollten soweit wie möglich ebenfalls redundant ausgelegt werden.
|
Disaster-Recovery-Software
|
Software, mit der verlorengegangene Informationen schnell wieder hergestellt werden können, hilft, die Lücke bei der Verfügbarkeit kurz zu halten.
|
Organisatorische Massnahmen
|
Für den Fall des Falles müssen organisatorische Massnahmen vorbereitet sein. Basteleien vergrössern das Desaster meistens nur. Auch Scripts für die Wiederherstellung der Konfiguration
und ähnliche Schritte gehören dazu.
|
Physischer Zugangsschutz
|
Eine wichtige Massnahme ist der Schutz von Serverräumen. Informationen auf Servern gehören zu den wichtigsten Aktiva von Unternehmen und müssen entsprechend behandelt werden.
|
Kennwort in den Tresor
|
Das Administrator-Kennwort gehört in den Tresor, um immer einen Zugang zu haben - auch wenn alle anderen Kennwörter verlorengegangen sind.
|
Ausweichsysteme
|
Ersatzkomponenten, vorbereitete Server, auf die nur noch Daten gespielt werden müssen, oder Ausweichrechenzentren erlauben einen schnellen Wiederanlauf der produktiven Systeme.
|
|