Disaster Recovery für Windows NT

Natürlich hofft man immer, dass es nicht passiert – aber wenn es doch einmal zu einem Desaster kommt, sollte man gewappnet sein und wissen, wie man seinen Windows NT-Server schnellstmöglich wieder zum Laufen bringt.

Schiefgehen kann bei einem NT-System viel: Ein Fehler in der Software oder der Konfiguration kann dazu führen, dass der Rechner nicht mehr startet. Der Serverraum kann ausbrennen. Die Festplatte kann beschädigt werden oder irgendeine andere Hardwarekomponente verweigert ihren Dienst. Was auch immer die Ursache ist, das Problem ist stets das gleiche: Der Server läuft nicht mehr, die Benutzer können nicht mehr zugreifen und ihre Arbeit bleibt liegen.

Grundsätzlich gilt es natürlich, eine derartige Situation überhaupt zu vermeiden. Immerhin können drei der vier oben genannten Fälle über redundante Komponenten und Systeme generell vermieden werden, wenn auch mit einigen Investitionen. Nur die wirklich grossen Katastrophen wie ein Brand im Rechnerraum, Sabotage am System und dergleichen mehr lassen sich nicht so einfach ausschliessen.

Insofern umfasst das Disaster Recovery mehrere Bereiche. Dazu zählen einerseits die regelmässigen Massnahmen, um Systeme wiederherstellen zu können, wie beispielsweise die Datensicherung und die Pflege von Notfalldisketten. Es umfasst andererseits aber auch technische Massnahmen, um den Ausfall eines Servers kompensieren zu können. Last but not least beinhaltet Disaster Recovery aber auch Überlegungen und Massnahmen für den Worst Case, die grösstmögliche Katastrophe.

Denn ein Schaden an einer Festplatte muss kein Desaster sein, wenn man darauf vorbereitet ist. Und selbst der Brand im Rechnerraum bedeutet nicht unbedingt eine vollendete Katastrophe, sondern unter Umständen nur einige Aufräum- und Renovationsarbeiten sowie eine schweren Herzens zahlende Versicherung.

Die Routinevorsorge

Bei den regelmässigen Vorbeugemassnahmen ist vor allem das Backup unerlässlich. Eine regelmässige und in kurzen Abständen erfolgende Datensicherung ist die beste Basis dafür, gravierende Datenverluste zu vermeiden. Das Erstellen von Backups ist zwar etwas lästig, lässt sich dafür aber kostengünstig durchführen. Ein gutes SCSI-Bandlaufwerk oder auch eine SCSI-Jukebox kostet heute nicht mehr allzu viel Geld. Und auch die entsprechende Software bewegt sich in einem preislich durchaus überschaubaren Rahmen.

Wichtig ist dabei, den Fokus auf die richtigen Daten zu legen. Dabei lassen sich im Kern die drei Bereiche Systemdateien, Programmfiles und die eigentlichen Daten unterscheiden. Letztere sind am kritischsten, da ein Verlust zum Teil katastrophale Folgen haben kann. Je sensibler und wertvoller die Informationen sind, desto mehr Aufwand muss auch betrieben werden, um Verluste zu vermeiden.

In jedem Fall ist aber eine tägliche oder, besser, nächtliche Datensicherung eine Grundvoraussetzung. Dabei werden zumindest die sich verändernden Daten abgelegt. Ein solches inkrementelles Backup spart Zeit und Bandkapazität. Eine Komplettsicherung erfolgt dann erst am Ende einer Woche. Der Nachteil bei dieser Vorgehensweise besteht darin, dass der Vorgang der Wiederherstellung länger dauert, da nach der letzten Komplettsicherung die verschiedenen inkrementellen Sicherungen Schritt für Schritt eingespielt werden müssen. Programm- und Systemdateien können in längeren Abständen gesichert werden, solange sie keinen wesentlichen Veränderungen unterliegen.

Der doppelte Domänencontroller

Bei Windows NT ist der kritische Bereich bei den Systemdateien die Registry und dort insbesondere die SAM, die Benutzerkontendatenbank. Diese sollte in eine tägliche Sicherung einbezogen werden. Die Datensicherung allein bietet aber keine optimale Sicherheit. Denn wenn das Problem abends auftritt, sind zumindest die Änderungen des letzten Tages verloren. Und das kann schon zuviel sein. Hier muss mit ergänzenden Massnahmen wie gespiegelten Festplatten gearbeitet werden, auf die weiter unten noch eingegangen wird.

Was die Benutzerkontendatenbank betrifft: Ergänzend zur Sicherung der Daten sollte neben einem primären Domänencontroller (PDC) immer auch ein Backup-Domänencontroller (BDC) vorhanden sein. Die wichtigen und kritischen Benutzerdaten mit ihren SIDs (Security IDs) werden dann zwischen den beiden Systemen automatisch repliziert und sind auch beim Ausfall eines der beiden Systeme verfügbar.

Zu den Routinearbeiten gehört neben der Datensicherung auch eine regelmässige Kontrolle der Systeme. Dazu müssen die Log-Dateien der Datensicherungsprogramme ebenso analysiert werden wie das Systemprotokoll von Windows NT. Damit können Fehler bei Datensicherung und Replikation erkannt werden. Oftmals zeigen sich im Protokoll aber auch schon anstehende Probleme, wenn beispielsweise für einen SCSI-Adapter viele Fehlermeldungen angezeigt werden. Neben den Windows-NT-Werkzeugen gibt es hier eine Vielzahl von Systemmanagement-Tools, mit denen eine solche Server-Überwachung zentralisiert und über Regeln auch in hohem Masse automatisiert werden kann. Beispiele wären etwa Intels LANDesk oder IBMs Tivoli-Suite.

Backup-Tools für alle Belange

Die nächste Frage ist, welches Sicherungsprogramm denn verwendet werden soll. Mit Windows NT wird ein Backup-Programm geliefert, das allerdings nur rudimentäre Funktionen bietet. Immerhin lässt sich damit aber die Registry sichern. Es ist aber von seiner Funktionalität und Steuerbarkeit allenfalls für einen einzelnen, lokalen Server wirklich geeignet. Als Alternative gibt es eine ganze Fülle von Backup-Lösungen am Markt. Diese lassen sich in drei Kategorien einteilen. Es gibt einfachere Lösungen, die zwar mehr können als NT-Backup selbst, die aber fast ausschliesslich auf die reine Sicherung eines oder weniger NT-Systeme fokussiert sind. Dann sind die beiden marktführenden Systeme zu nennen, die technisch das Mittelfeld darstellen: ArcServeIT von Cheyenne/Computer Associates und BackupExec von Veritas. Diese Systeme gibt es für mehrere Plattformen mit Agents für unterschiedliche Betriebssysteme und Anwendungsserver wie beispielsweise Microsofts SQL Server. Hier wird je nach Variante auch die Möglichkeit geboten, eine grössere Zahl von Servern zentralisiert zu sichern.

Im oberen Marktsegment schliesslich gibt es dann Lösungen beispielsweise von Legato mit dem Networker, IBM mit ADSM und CA mit dem CA-Unicenter/TNG, die auf eine unternehmensweite Datensicherung fokussiert sind. Diese Systeme machen auch nur Sinn, wenn die Sicherung in einer heterogenen IT-Infrastruktur das Ziel ist, da der Preis ihrer Leistungsfähigkeit eine relativ hohe Komplexität ist. Auf der anderen Seite lassen sich auch Systeme wie BackupExec beispielsweise mit ADSM integrieren.

Im Zusammenhang mit Backup-Lösungen sind ferner auch die diversen Cloning- und Imaging-Werkzeuge zu nennen, über die sich Partitionen rasant erfassen und im Bedarfsfall wieder restaurieren lassen. Zu den bekanntesten Vertretern zählen PowerQuests Drive Image Pro oder Ghost von Symantec.

Dedizierte Recovery-Tools

Interessant für das Thema der Disaster Recovery ist ArcServeIT, das über eine spezielle Disaster-Recovery-Option verfügt. Damit kann von einer Diskette aus eine vollständige Wiederherstellung eines NT-Systems angestossen werden.

NT selbst hat mit Rdisk.exe noch ein weiteres Werkzeug, das für die Wiederherstellung von Systemen von Bedeutung ist. Und auch in den Registry-Editoren finden sich Befehle, mit denen Teile von Systeminformationen gesichert werden können. Hier ist aber einige Vorsicht geboten, wie weiter unten noch ausgeführt wird.

Schliesslich gibt es von Winternals noch eine Reihe von Tools, die Hilfe bei der Wiederherstellung von Systemen bieten. Diese Lösungen verfolgen jeweils das Ziel, Änderungen bei Windows NT von der DOS-Ebene aus durchzuführen. Das Tool NT Recover erlaubt es beispielsweise, über eine serielle Verbindung auf einen gecrashten NT-Rechner zuzugreifen. Winternals vertreibt auch das Werkzeug Ntfsdos.exe, mit dem von DOS aus auf NTFS zugegriffen werden kann.

Allerdings handelt es sich dabei um eigentliche Notlösungen. Wenn man ein Werkzeug benötigt, um das letzte Administratoren-Kennwort zu verändern, dann hat man offensichtlich einiges falsch gemacht. Denn man sollte mehr als ein Administratoren-Konto haben und das eingebaute Konto in der Regel nur für Notfälle nutzen - mit einem Kennwort, das für alle Fälle im Tresor aufbewahrt wird. Ausserdem ist immer zu überlegen, wie viel Aufwand man eigentlich treiben kann.

Die Produkte von Winternals sind allerdings eher der «Bastler»-Ecke zuzuordnen; sie dienen grösstenteils dem Zugriff auf ein nicht mehr zugängliches System und erlauben das Kopieren von Dateien darauf. Die Erfahrung zeigt aber, dass eine Systemwiederherstellung beispielsweise über die Disaster Recovery Option von ArcServeIT im Problemfall ungleich schneller funktioniert als der Versuch, ein defektes System über manuelle Eingriffe wieder zum Laufen zu bringen. Und generell gilt eben, dass die Vermeidung von Desastern der deutlich bessere und sinnvollere Ansatz ist.

Stolpersteine und Probleme

Eine wichtige Erkenntnis ist, dass ein abgestürztes NT-System sich meistens wieder booten lässt. Selbst wenn beim Aufstarten erst einmal eine Bluescreen-Meldung erscheint, gibt es meist noch Möglichkeiten. Zum einen läuft das System manchmal wieder, wenn ein Kaltstart statt eines Resets durchgeführt wird. Zum anderen sollten beim Booten solcher Systeme CDs aus dem Laufwerk entfernt werden. Fehlerhafte, selbstgebrannte Scheiben zeichnen oft ebenfalls für Bluescreens beim Booten verantwortlich. Wenn man erst einmal versucht, solche Ursachen auszuschliessen, lässt sich manche Systemwiederherstellung vermeiden.

Wenn sich Windows NT dennoch nicht mehr starten lässt, hängt die weitere Vorgehensweise von den vorab ergriffenen Massnahmen ab. Die Reparaturfunktion, die Windows NT über seine Boot-Disketten bietet, ist bei defekten Systemdateien ein sehr guter Ansatz, da dabei sowohl die Systemkonfiguration - soweit sie nicht beschädigt ist - als auch die Daten und Zugriffsrechte unverändert bleiben. Allerdings kann die Notfall-Diskette auf Domänencontrollern mit Rdisk.exe nicht permanent aktualisiert werden, da das Volumen der Registry hier schnell die Kapazität einer Diskette übersteigen kann. Eine regelmässig aktualisierte Notfalldiskette ist aber Voraussetzung für eine erfolgreiche Bewältigung dieses Schritts, wenn die Konfigurationsdateien beschädigt sind.

Bei defekter Hardware lässt sich das Problem oftmals durch einen simplen Tausch von Komponenten im System bewerkstelligen. Wenn wichtige Bauteile in identischer Form vorrätig sind oder ein Support-Vertrag mit einem Hersteller abgeschlossen wurde, kann so ein sehr schneller Ersatz erfolgen. Einige Hersteller wie etwa Hewlett-Packard bieten heute für NT-Installationen schon Standard-Verträge mit einer garantierten Verfügbarkeit von 99,9 Prozent, was immerhin weniger als 9 Stunden Ausfallzeit in einem Jahr entspricht.

Die Krux mit geänderten Konfigurationen

Ein generelles Problem bei der Wiederherstellung stellt veränderte Hardware dar. Da in der Registry von Windows NT Informationen über die Hardwarekomponenten abgelegt werden, lässt sich ein System nicht eins zu eins auf einer anderen Plattform wieder herstellen. Hier ist eine vorherige Installation von Windows NT, die anschliessende Sicherung von Daten und eine Wiederherstellung von Konfigurationsinformationen im System erforderlich.

Damit stellt sich dann in Teilen aber schon wieder die Frage, wie Konfigurationsänderungen schnell nachvollzogen werden können. Zum einen muss - und auch das gehört wieder zu einer professionellen und zuverlässigen Vorbereitung - genau dokumentiert werden, welche Einstellungen bei einem Server wie geändert worden sind. Zum anderen muss dann aber auch mit einer Automatisierung einer Konfigurationsanpassung gearbeitet werden. Der mit dem Option Pack gelieferte Windows Scripting Host (WSH) bietet dafür eine gute Basis, da Registry-Parameter darüber gesteuert werden können. Hier lassen sich vorab Scripts definieren, die bei einem neuen Server nur noch ausgeführt werden müssen, um alle Konfigurationsmanipulationen nachvollziehen zu können. Zugriffsrechte werden dagegen überwiegend über die Datensicherung wiederhergestellt. Für Systemdateien bietet sich der ab dem Service Pack 4 verfügbare Security Configuration Manager (SCM) an, mit dem sowohl für Systemdateien als auch Registry-Parameter in einer Konfigurationsdatei festgelegt werden kann, welche Zugriffsrechte gelten sollen. Diese können dann auf ein wiederhergestelltes System mit einem Befehl adaptiert werden.

Bei allen diesen Überlegungen spielt auch die Geschwindigkeit des Recovery eine wichtige Rolle. Es darf eben keine Situation entstehen, in der das System für längere Zeit nicht verfügbar ist. Hier gibt es keinen Spielraum für Basteleien. Je mehr vorbereitet und automatisiert wurde, desto schneller ist ein System auch wieder lauffähig.

Zu den besonders kritischen Basteleien gehört die Sicherung von Teilen der Registry und ihre Wiederherstellung auf anderen Systemen. Die Möglichkeit, dass sich ein System durch diese Vorgehensweise komplett verabschiedet, ist erfahrungsgemäss besonders hoch. Man sollte davon - vor allem beim Disaster Recovery, bei dem die Zeit zählt und nicht noch mehr Fehler passieren dürfen - unbedingt die Finger lassen.

Ein weiteres, oftmals unterschätztes Problem stellt die Sicherheit dar. Sowohl die Notfalldiskette als auch die Bänder der Datensicherung müssen gut geschützt - also in einem feuerfesten Tresor - aufbewahrt werden. Natürlich darf die Sicherung dabei auch an einer anderen physischen Lokation als dem Serverraum bereitstehen. Unter diesem Aspekt liegt das Problem vor allem darin, dass die Informationen auf den genannten Medien nicht geschützt sind. Backup-Daten lassen sich auch ohne Zugriffsrechte wiederherstellen und sind dann offen für den Zugriff. Und sowohl die Notfalldiskette als auch eine vollständige Datensicherung eines Domänencontrollers enthalten die SAM und damit auch die Hashs (Ableitungen) der Kennwörter, die sich mit einem überschaubaren Aufwand entschlüsseln lassen. Diese Disketten und Bänder sind also sehr sensibel zu behandeln, um hier keine Sicherheitslücken entstehen zu lassen.

Systeme mit hoher Verfügbarkeit

Kein Konzept zur Wiederherstellung ist aber so gut wie die Vorbeugung. Das beginnt beim oben bereits angesprochenen BDC als Ergänzung zum PDC. Bei Servern mit wichtigen Daten sollte immer mit gespiegelten Festplatten oder RAID-Systemen gearbeitet werden. Damit kann dem Ausfall einer Festplatte vorgebeugt werden. Redundante Netzteile und Hot-Plug-Komponenten sowohl bei Festplatten als zunehmend auch bei anderen Komponenten wie Netzwerkadaptern sind bei Servern heute zunehmend eine Selbstverständlichkeit.

Wer noch mehr Sicherheit benötigt, muss dann zu Cluster-Lösungen greifen. Vor allem im Bereich der Failover-Cluster gibt es für Windows NT mittlerweile ein sehr breites Angebot. Das reicht von der Enterprise Edition und Microsofts Cluster Server über die Produkte von Herstellern wie beispielsweise NCR bis hin zu spezialisierten Lösungen einzelner Anbieter, die eine Verfügbarkeit von sage und schreibe 99,999 Prozent versprechen.

Eines aber ist klar: Je mehr man sich absichern möchte, desto mehr muss man dafür ausgeben. Ein Cluster erfordert nun mal zwei Systeme und kostet damit schon deshalb mindestens das Doppelte eines einzelnen Servers.

Die Vermeidung des GAU

Man kann auch noch einen Schritt weiter gehen, um auch für den Worst Case bzw. den grössten anzunehmenden Unfall gewappnet zu sein, bei dem ein Rechenzentrum nicht mehr verfügbar ist. Für diese Bedürfnisse gibt es diverse Anbieter von Ausweichrechenzentren, mit denen man entsprechende Verträge aufbauen kann.

Eine andere Alternative ist die Realisierung von Clustern über WAN-Verbindungen hinweg und damit an getrennten Standorten. Das ist allerdings wegen der erforderlichen hohen Leitungskapazität ein ausgesprochen teures Unterfangen. Ein erster Schritt kann aber schon die Unterbringung der beiden Maschinen eines Clusters, von redundanten Datenträgern in einem System oder von PDC und BDC in getrennten Räumen eines Gebäudes sein. Hier lassen sich die erforderlichen Leitungskapazitäten noch sehr einfach und vergleichsweise günstig bereitstellen.

Gerade diese letzteren Massnahmen machen aber auch deutlich, dass ein Desaster praktisch nie unvermeidbar ist. Letztlich geht es hier immer um ein Abwägen zwischen den möglichen Investitionen im Vorfeld und dem Aufwand und Risiko nach einem möglichen Crash.

Die wichtigsten Massnahmen

Ordner

Funktion

Datensicherung

Die wichtigste Vorsorge ist die Datensicherung. Denn wenn alles schief läuft, kann man zumindest die meisten Informationen wieder herstellen.

Dezentralität

Die Daten müssen, und wenn es nur über Sicherungsbänder ist, auch an einer anderen physischen Lokation vorhanden sein, um bei einem grossen Desaster nicht direkt betroffen zu sein.

Cluster

Doppelt vorhandene Server bieten eine gute Basis, um beim Ausfall eines Systems ohne Unterbruch weiterarbeiten zu können.

Spiegelung und RAID

Festplatten müssen bei kritischen Daten immer redundant ausgelegt werden, sei es über Spiegelung oder RAID-Systeme. Hardwarelösungen sind dabei zu bevorzugen.

Redundante Komponenten

Netzteile, Netzwerk-Adapter und andere Komponenten sollten soweit wie möglich ebenfalls redundant ausgelegt werden.

Disaster-Recovery-Software

Software, mit der verlorengegangene Informationen schnell wieder hergestellt werden können, hilft, die Lücke bei der Verfügbarkeit kurz zu halten.

Organisatorische Massnahmen

Für den Fall des Falles müssen organisatorische Massnahmen vorbereitet sein. Basteleien vergrössern das Desaster meistens nur. Auch Scripts für die Wiederherstellung der Konfiguration und ähnliche Schritte gehören dazu.

Physischer Zugangsschutz

Eine wichtige Massnahme ist der Schutz von Serverräumen. Informationen auf Servern gehören zu den wichtigsten Aktiva von Unternehmen und müssen entsprechend behandelt werden.

Kennwort in den Tresor

Das Administrator-Kennwort gehört in den Tresor, um immer einen Zugang zu haben - auch wenn alle anderen Kennwörter verlorengegangen sind.

Ausweichsysteme

Ersatzkomponenten, vorbereitete Server, auf die nur noch Daten gespielt werden müssen, oder Ausweichrechenzentren erlauben einen schnellen Wiederanlauf der produktiven Systeme.