Hamburg, Stellingen - 07. September 2018 - Sebastian Evers
Der kritische Status einer RAID-Gruppe wird in dem Augenblick erreicht, in dem, mit dem Ausfall eines weiteren Datenträgers, das Volumen nicht mehr erreichbar und das RAID Offline sein würde. Bei einem RAID 1 Volumen mit zwei Festplattenlaufwerken wäre dieser Zustand bereits mit einem defekten Datenträger erreicht.
Auch bei dem allseits beliebten RAID 5 befindet sich das RAID-Array auf einem kritischen Level bzw. wird dieses heruntergestuft ("RAID degraded"), sobald eine Festplatte ausfällt und ersetzt werden muss. Bei einem RAID 6 hingegen lässt sich der Ausfall von zwei Laufwerken verkraften, bevor der RAID-Controller das RAID als "critical" bewertet. Mit dem Ausfall einer Festplatte befindet sich ein RAID 6 Volumen im teilkritischen Zustand, welcher von vielen RAID-Controllern als "RAID suboptimal" oder mit "drive missing" ausgegeben wird.
Ist die Verfügbarkeit der Daten durch einen bzw. mehrere Festplattenausfälle eingeschränkt oder gefährdet, so lässt sich mit dem Ersatz des ausgefallenen Datenträgers - entweder durch den manuellen Austausch oder eine vorkonfigurierte Hotspare - ein Rebuild einleiten.
Beim Vorgang des Wiederaufbaus des RAID-Array wird der Zustand der Datenträgergruppe von vor dem Festplattenausfall wiederhergestellt - so zumindest die Theorie. Das Rebuilding eines RAID bietet neben dem "degraded mode" weiteres Risikopotenzial.
Im Rahmen des Rebuild kopiert der jeweilige RAID-Alorithmus die Daten sowie die damit verbundenen Paritätsdaten (RAID 5: Einfache Parität; RAID 6: Doppelte Parität) auf den oder die neu eingesetzten Datenträger - abhängig vom eingesetzten RAID-Level - um die Ausfallsicherheit des RAID-Verbunds wiederherzustellen.
Für den Rebuild-Vorgang gibt es verschiedene Modi:
Es spielen weitere Faktoren bei der maßgeblichen Geschwindigkeit des Rebuild-Prozesses eine Rolle. Dazu zählen unter anderem die Kapazität des gesamten RAID Volumens, die Anzahl der in der RAID-Gruppe enthaltenen Datenträger und auch die Priorität, die dem Rebuild-Vorgang eingeräumt worden ist. Je mehr Datenträger in einem RAID enthalten sind, desto mehr Zeit nimmt ein Rebuild in einer "post-failure" Konfiguration in Anspruch - basierend auf dem RAID-Level.
Der "post failure" Rebuild-Prozess selbst liefert nach dem Ausfall eines (RAID 5) oder mehrerer Datenträger (RAID 6) zusätzliches Risikopotenzial, wodurch schlimmstenfalls der endgültige Ausfall des RAID-Arrays stattfinden kann. Die Möglichkeit, dass während des Wiederherstellungsvorgangs weitere Laufwerke ausfallen können, schwebt wie ein Damoklesschwert über dem Rekonfigurationsprozess.
Ein RAID 6 im teilkritischen Zustand könnte den Ausfall einer weiteren Festplatte temporär kompensieren, bei einem RAID 5 wäre der Datenverlust allerdings besiegelt. Dieses Risiko ist angesichts des Zeitraums, den die RAID Wiederherstellung in Anspruch nehmen kann, immens hoch und eine häufig unterschätzte Gefahr
Durch die immer weiter ansteigenden Kapazitäten der Festplatten und deren Einsatz in klassischen RAID 5 Konstellationen erhöht sich demnach auch die erforderliche Dauer für den Rebuild-Prozess. Dadurch steigt auch die Gefahr eines weiteren bzw. weiterer Ausfälle. Je nach Kapazität des Volumens kann ein Rebuild mehrere Stunden, Tage oder sogar Wochen in Anspruch nehmen. In dieser Zeitspanne ist das RAID 5 gegen weitere Ausfälle ungeschützt und die Volllast, unter der das System sich beim Rebuild befindet, steigert das Ausfallpotenzial zusätzlich.
Es muss eigentlich nicht - trotzdem tun wir es immer wieder - erwähnt werden, dass man sich keine allzu großen Sorgen machen muss, wenn ein aktuelles und gewissenhaftes Backup vorliegt. Denn ein RAID allein stellt nunmal keine Datensicherung dar und soll einzig und allein die Verfügbarkeit des Live-Systems und der darauf befindlichen Daten gewährleisten.