
RAID-Rebuild: Warum er zum Verlust aller Daten führen kann
RAID-Rebuild: Warum er zum Verlust aller Daten führen kann
Sie haben die ausgefallene Festplatte ersetzt. Den Rebuild gestartet. Die Fortschrittsanzeige zeigt 47%. Und dann... fällt eine weitere Festplatte aus. Alle Daten verloren.
Das ist kein Alptraum. Es ist ein reales Szenario, das häufiger vorkommt als es sollte. Der RAID-Rebuild, der Daten wiederherstellen soll, ist paradoxerweise einer der riskantesten Prozesse für Ihre Daten.
Was ist ein RAID-Rebuild
Definition
RAID-Rebuild ist der Prozess der Wiederherstellung der Redundanz nach einem Festplattenausfall. Der Controller liest Daten und Parität von den verbleibenden Festplatten und berechnet die fehlenden Daten auf die neue Festplatte.
Wie es funktioniert
RAID 5:
- Controller liest alle Sektoren von gesunden Festplatten
- Für jeden Stripe berechnet er:
Neuer Sektor = Disk1 XOR Disk2 XOR ... XOR Parität - Schreibt Ergebnis auf neue Festplatte
RAID 6: Ähnliches Prinzip, aber mit zwei unabhängigen Paritäten.
RAID 1/10: Einfacher – reine Kopie von der Spiegelplatte.
Dauer
| RAID-Kapazität | Ungefähre Rebuild-Zeit |
|---|---|
| 1 TB | 2-4 Stunden |
| 4 TB | 8-16 Stunden |
| 12 TB | 24-48 Stunden |
| 24 TB+ | 2-4 Tage |
Abhängig von Festplattengeschwindigkeit, Controller und Last.
Warum Rebuild riskant ist
Stresstest für verbleibende Festplatten
Während des Rebuilds muss der Controller jeden Sektor der verbleibenden Festplatten lesen. Das ist das vollständige Lesen der gesamten Kapazität – etwas, das im normalen Betrieb nie passiert.
Was das bedeutet:
- 100% I/O-Kapazitätsauslastung
- Erhöhte Festplattentemperatur
- Mechanische Belastung (bei HDD)
- Aufdeckung latenter Defekte
Entdeckung versteckter Probleme
Manche Sektoren wurden seit Monaten oder Jahren nicht gelesen. Sie können degradiert sein, aber der normale Betrieb erkennt das nicht – Dateien in diesen Sektoren verwendet niemand.
Rebuild liest alles. Und findet Probleme, von denen Sie nichts wussten.
URE – Unrecoverable Read Error
Schlüsselkonzept zum Verständnis von Rebuild-Risiken.
URE: Der stille RAID-Killer
Was ist URE
Unrecoverable Read Error ist ein Lesefehler, den die Festplatte nicht korrigieren kann. Der Sektor ist auch nach wiederholten Versuchen unlesbar.
Statistiken zum Auftreten
Jede Festplatte hat eine URE-Ratenspezifikation – die Wahrscheinlichkeit eines nicht behebbaren Fehlers:
| Festplattentyp | URE-Rate |
|---|---|
| Consumer HDD | 1 pro 10^14 Bits |
| Enterprise HDD | 1 pro 10^15 Bits |
| Enterprise SSD | 1 pro 10^17 Bits |
Mathematik – Warum es ein Problem ist
Berechnen wir die URE-Wahrscheinlichkeit während eines 12TB RAID 5 Rebuilds mit Consumer-Festplatten:
12 TB = 12 × 10^12 Bytes = 96 × 10^12 Bits
URE-Rate = 10^14 Bits pro Fehler
Wahrscheinlichkeit OHNE Fehler beim Lesen von 12TB:
P(OK) = (1 - 1/10^14)^(96×10^12) ≈ e^(-0.96) ≈ 38%
Wahrscheinlichkeit von mindestens 1 URE:
P(URE) ≈ 62%
Bei einer 12TB Consumer-Festplatte besteht ~60% Chance auf URE beim Komplettlesen.
Konsequenzen für RAID 5
Bei RAID 5 bedeutet ein URE während des Rebuilds = gesamter Rebuild-Fehler. Der Controller hat keine Möglichkeit, fehlende Daten zu berechnen, wenn ein Eingabesektor unlesbar ist.
Ergebnis: Array bleibt im degradierten Zustand, Rebuild schlägt fehl, und wenn eine weitere Festplatte ausfällt – Verlust aller Daten.
Warum RAID 6 sicherer ist
RAID 6 hat zwei unabhängige Paritäten. Ein URE während des Rebuilds ist kein Problem – der Controller kann Daten aus der zweiten Parität berechnen.
Deshalb empfehlen wir RAID 6 für:
- Große Arrays (6+ Festplatten)
- Große Festplatten (4TB+)
- Consumer-Festplatten (schlechtere URE-Rate)
Vergleich der RAID-Konfigurationen →
Wahrscheinlichkeit eines Ausfalls während des Rebuilds
Risikotabelle
| Situation | Ausfallwahrscheinlichkeit |
|---|---|
| RAID 5, 4×1TB, neue Festplatten | ~1-5% |
| RAID 5, 4×4TB, 3 Jahre | ~10-20% |
| RAID 5, 8×8TB, 4 Jahre | ~30-40% |
| RAID 5, 8×12TB, 5 Jahre | ~40-60% |
| RAID 6, 8×12TB, 5 Jahre | ~5-15% |
Faktoren, die das Risiko erhöhen
Festplattenalter: Ältere Festplatten = mehr Verschleiß = höhere Wahrscheinlichkeit von URE und Ausfall.
Festplattengröße: Größere Festplatten = mehr zu lesende Daten = höhere Wahrscheinlichkeit von URE.
Anzahl der Festplatten: Mehr Festplatten = mehr potenzielle Ausfallpunkte.
SMART-Warnungen: Festplatten mit Warnungen haben deutlich höhere Ausfallwahrscheinlichkeit während des Rebuilds.
Hot Spare – Lösung oder Illusion?
Was ist Hot Spare
Ersatzfestplatte, die an das RAID-Array angeschlossen, aber ungenutzt ist. Bei Festplattenausfall ersetzt sie automatisch die ausgefallene Festplatte und startet den Rebuild.
Vorteile
Automatischer Start: Kein Warten auf neue Festplatte, Rebuild startet sofort.
Kürzere Degraded-Zeit: Kleineres Zeitfenster, in dem das Array verwundbar ist.
Nachteile
Rebuild ist immer noch riskant: Hot Spare reduziert nicht die Rebuild-Risiken – URE, Dominoeffekt, Festplattenbelastung.
Falsches Sicherheitsgefühl: "Wir haben Hot Spare, wir sind sicher." Nein, Sie sind nur schneller in der Rebuild-Phase.
Kosten: Festplatte, die normalerweise nichts tut.
Empfehlung
Hot Spare JA, aber mit Bewusstsein für die Grenzen. Es ist Ergänzung zu Backups, kein Ersatz.
Korrektes Vorgehen beim Rebuild
Vor dem Rebuild
1. Vollständiges Backup (wenn möglich) Wenn das Array lesbar ist, sichern Sie kritische Daten. Es ist eine Versicherung für den Fall eines Rebuild-Fehlers.
2. SMART-Prüfung aller Festplatten Prüfen Sie SMART-Werte der verbleibenden Festplatten:
- Reallocated Sector Count
- Current Pending Sector
- Spin Retry Count
Wenn eine Festplatte Warnungen zeigt, keinen Rebuild – besser professionelle Rettung.
3. Dokumentation Erfassen Sie:
- Modell- und Seriennummern der Festplatten
- Festplattenpositionen
- RAID-Konfiguration
- SMART-Werte
4. Plan B Was werden Sie tun, wenn der Rebuild fehlschlägt? Haben Sie den Kontakt zu Profis bereit.
Während des Rebuilds
1. I/O minimieren Anwendungen beenden, die RAID nutzen. Weniger Last = geringeres Risiko.
2. Monitoring Überwachen Sie Fortschritt und Festplattentemperatur. Hohe Temperatur = Risiko.
3. Auf Ausfall vorbereitet sein Wenn Rebuild fehlschlägt oder Fehler auftreten, sofort stoppen und Hilfe rufen.
Nach dem Rebuild
1. Integrität verifizieren Konsistenzprüfung (Scrub) ausführen, wenn Controller dies unterstützt.
2. Backup testen Verifizieren Sie, dass Backup aktuell und funktionsfähig ist.
3. SMART-Prüfung SMART-Werte erneut prüfen – Rebuild kann latente Probleme aufgedeckt haben.
Alternativen zum Rebuild
Professionelle Rettung
Anstatt riskanten Rebuild können Daten professionell gerettet werden:
- Sektorkopie jeder Festplatte
- Virtuelle RAID-Rekonstruktion
- Arbeit mit Kopien, nicht Originalen
Vorteile:
- Sicherer (wir arbeiten nicht mit Originalen)
- Kann auch bei mehreren Ausfällen retten
- Expertendiagnose
Nachteile:
- Kosten
- Zeit (Tage statt Stunden)
Wiederherstellung aus Backup
Sicherste Option. Wenn Sie ein funktionsfähiges Backup haben:
- Neues RAID-Array erstellen
- Daten aus Backup wiederherstellen
- Fertig
Deshalb sind Backups so wichtig.
Upgrade auf RAID 6
Wenn Sie den Ausfall sowieso beheben müssen, erwägen Sie ein Upgrade:
- Neuer Controller mit RAID 6-Unterstützung
- Neue Festplatten (verschiedene Chargen)
- Datenmigration aus Backup
Wann besser keinen Rebuild durchführen
Mehr als 1 Festplatte mit SMART-Warnung
Wenn eine der verbleibenden Festplatten SMART-Warnungen zeigt, ist Rebuild ein Glücksspiel. Professionelle Rettung ist sicherer.
Sehr alte Festplatten (5+ Jahre)
Bei alten Festplatten ist die Wahrscheinlichkeit von URE und Dominoausfall sehr hoch. Ziehen Sie Rettung statt Rebuild in Betracht.
Kritische Daten ohne Backup
Wenn Sie kein Backup haben und die Daten kritisch sind, ist Rebuild zu riskant. Professionelle Rettung ist der einzig sichere Weg.
Bereits gescheiterter Versuch
Wenn der erste Rebuild gescheitert ist, hat der zweite Versuch noch weniger Chancen. Die Festplatten sind weiter verschlissen. Rufen Sie Profis.
FAQ
Wie lange dauert ein Rebuild?
Abhängig von Kapazität, Festplattengeschwindigkeit und Last. Ungefähr:
- 4TB: 8-16 Stunden
- 8TB: 16-32 Stunden
- 12TB+: 1-3 Tage
Kann ich den Server während des Rebuilds nutzen?
Sie können, aber Sie verlangsamen den Rebuild und erhöhen das Risiko. Bei kritischen Daten empfehlen wir, Operationen zu minimieren.
Ist Rebuild auf SSD sicherer?
Ja. SSDs haben bessere URE-Rate (10^17 vs 10^14) und sind nicht anfällig für mechanische Ausfälle. Rebuild ist schneller und weniger riskant.
Rebuild ist gescheitert, was jetzt?
Sofort weitere Versuche stoppen. Die Festplatten sind in schlechterem Zustand als vor dem Rebuild. Kontaktieren Sie Profis.
Brauchen Sie eine sicherere Lösung?
Wenn Sie ein RAID im Degraded-Zustand haben und den Rebuild fürchten, können wir helfen. Professionelle Rettung ist sicherer als riskanter Rebuild.
24/7 Hotline: +420 775 220 440