RAID Ausfall - Risiko Rebuild

Ein RAID-Rebuild bezeichnet den Vorgang der Wiederherstellung sowie Rekonfiguration des RAID-Arrays, wenn einer oder mehrere Datenträger (Festplatten) - abhängig vom konfigurierten RAID - ausgefallen sind und das Risiko eines Datenverlusts bevorsteht.

Hamburg, Stellingen - 07. September 2018 - Sebastian Evers

Der kritische Status einer RAID-Gruppe wird in dem Augenblick erreicht, in dem, mit dem Ausfall eines weiteren Datenträgers, das Volumen nicht mehr erreichbar und das RAID Offline sein würde. Bei einem RAID 1 Volumen mit zwei Festplattenlaufwerken wäre dieser Zustand bereits mit einem defekten Datenträger erreicht.

Auch bei dem allseits beliebten RAID 5 befindet sich das RAID-Array auf einem kritischen Level bzw. wird dieses heruntergestuft ("RAID degraded"), sobald eine Festplatte ausfällt und ersetzt werden muss. Bei einem RAID 6 hingegen lässt sich der Ausfall von zwei Laufwerken verkraften, bevor der RAID-Controller das RAID als "critical" bewertet. Mit dem Ausfall einer Festplatte befindet sich ein RAID 6 Volumen im teilkritischen Zustand, welcher von vielen RAID-Controllern als "RAID suboptimal" oder mit "drive missing" ausgegeben wird.

Ist die Verfügbarkeit der Daten durch einen bzw. mehrere Festplattenausfälle eingeschränkt oder gefährdet, so lässt sich mit dem Ersatz des ausgefallenen Datenträgers - entweder durch den manuellen Austausch oder eine vorkonfigurierte Hotspare - ein Rebuild einleiten.

Beim Vorgang des Wiederaufbaus des RAID-Array wird der Zustand der Datenträgergruppe von vor dem Festplattenausfall wiederhergestellt - so zumindest die Theorie. Das Rebuilding eines RAID bietet neben dem "degraded mode" weiteres Risikopotenzial.

Im Rahmen des Rebuild kopiert der jeweilige RAID-Alorithmus die Daten sowie die damit verbundenen Paritätsdaten (RAID 5: Einfache Parität; RAID 6: Doppelte Parität) auf den oder die neu eingesetzten Datenträger - abhängig vom eingesetzten RAID-Level - um die Ausfallsicherheit des RAID-Verbunds wiederherzustellen.

Dauer des RAID Rebuild

Für den Rebuild-Vorgang gibt es verschiedene Modi:

Der erste Modus ist die RAID Wiederherstellung im "pre-failure" Modus: Dabei wird der baldige Ausfall eines Datenträgers anhand entsprechender Parameter (S.MA.R.T.) vorgemerkt und unmittelbar eine Sektorenkopie der potenziellen Ausfallplatte auf die Hotspare vorgenommen, um nach Fertigstellung den fehlerhaften Datenträger ersetzen zu können.
Der zweite Modus ist der "post-failure" Modus für den Rebuild-Prozess des RAID-Volumen: Hierbei müssen die auf dem ausgefallenen Datenträger enthaltenen Daten im Nachhinein aus den Paritätsdaten des kritischen RAID-Volumens berechnet und auf die Ersatz-/Hotspare-Festplatte geschrieben werden. Angesichts der umfassenden Berechnungen nimmt dieser Vorgang einen weitaus längeren Zeitraum in Anspruch, als es bei "pre-failure" der Fall ist.

Es spielen weitere Faktoren bei der maßgeblichen Geschwindigkeit des Rebuild-Prozesses eine Rolle. Dazu zählen unter anderem die Kapazität des gesamten RAID Volumens, die Anzahl der in der RAID-Gruppe enthaltenen Datenträger und auch die Priorität, die dem Rebuild-Vorgang eingeräumt worden ist. Je mehr Datenträger in einem RAID enthalten sind, desto mehr Zeit nimmt ein Rebuild in einer "post-failure" Konfiguration in Anspruch - basierend auf dem RAID-Level.

Der "post failure" Rebuild-Prozess selbst liefert nach dem Ausfall eines (RAID 5) oder mehrerer Datenträger (RAID 6) zusätzliches Risikopotenzial, wodurch schlimmstenfalls der endgültige Ausfall des RAID-Arrays stattfinden kann. Die Möglichkeit, dass während des Wiederherstellungsvorgangs weitere Laufwerke ausfallen können, schwebt wie ein Damoklesschwert über dem Rekonfigurationsprozess.

Ein RAID 6 im teilkritischen Zustand könnte den Ausfall einer weiteren Festplatte temporär kompensieren, bei einem RAID 5 wäre der Datenverlust allerdings besiegelt. Dieses Risiko ist angesichts des Zeitraums, den die RAID Wiederherstellung in Anspruch nehmen kann, immens hoch und eine häufig unterschätzte Gefahr

RAID 1 Rebuild: Bei einem Rebuild-Vorgang für eine einfache Spiegelung (Mirroring) werden die Daten Block für Block (1-zu-1 Kopie) vom Quellmedium auf den Ersatzdatenträger übertragen und die Redundanz wiederhergestellt.
RAID 10 Rebuild: Die Rebuild-Geschwindigkeit für die Wiederherstellung der RAID 10 Redundanz entspricht in etwa der Geschwindigkeit von RAID 1.
RAID 5 Rebuild: Das "post-failure" Rebuild eines RAID 5 benötigt weitaus mehr Zeit als ein "Mirror" Rebuild oder eben ein "pre-failure" Rebuild, da bei einem RAID 5 Array die Daten aller Festplatten im "degraded" RAID-Array gelesen werden müssen. Das Risiko, dass während des Rebuilding-Vorgangs des RAID-Arrays ein weiteres Medium aufgrund von Defekten aussteigt, ist durchweg gegeben.
RAID 6 Rebuild: Aufgrund der doppelten Parität hat ein RAID 6 Rebuild eine höhere Dauer als ein RAID 5 Rebuild. Außerdem könnten die Rebuild-Zeiten angesichts dessen, dass zwei Datenträger ohne Datenverlust ausfallen können, theoretisch vernachlässigt werden. Allerdings birgt das Rebuild eines "RAID 6 degraded" das Risiko, dass währenddessen ein weiterer Datenträger ausfällt - dann liegt Datenverlust vor.

Durch die immer weiter ansteigenden Kapazitäten der Festplatten und deren Einsatz in klassischen RAID 5 Konstellationen erhöht sich demnach auch die erforderliche Dauer für den Rebuild-Prozess. Dadurch steigt auch die Gefahr eines weiteren bzw. weiterer Ausfälle. Je nach Kapazität des Volumens kann ein Rebuild mehrere Stunden, Tage oder sogar Wochen in Anspruch nehmen. In dieser Zeitspanne ist das RAID 5 gegen weitere Ausfälle ungeschützt und die Volllast, unter der das System sich beim Rebuild befindet, steigert das Ausfallpotenzial zusätzlich.

Es muss eigentlich nicht - trotzdem tun wir es immer wieder - erwähnt werden, dass man sich keine allzu großen Sorgen machen muss, wenn ein aktuelles und gewissenhaftes Backup vorliegt. Denn ein RAID allein stellt nunmal keine Datensicherung dar und soll einzig und allein die Verfügbarkeit des Live-Systems und der darauf befindlichen Daten gewährleisten.

DI (FH) Markus Häfele

Geschäftsführer

(01) 236 01 01 info@attingo.at WhatsApp Live-Chat Diagnose-Anfrage

RAID Ausfall - Risiko Rebuild

Ein RAID-Rebuild bezeichnet den Vorgang der Wiederherstellung sowie Rekonfiguration des RAID-Arrays, wenn einer oder mehrere Datenträger (Festplatten) - abhängig vom konfigurierten RAID - ausgefallen sind und das Risiko eines Datenverlusts bevorsteht.

Dauer des RAID Rebuild

Attingo-Magazin