Remplacement d’un disque défectueux en RAID
Remplacer un disque dur dans un système RAID représente une opération délicate, durant laquelle vos données sont particulièrement vulnérables. Si le déploiement de RAID renforce la sécurité et/ou la performance de votre SI, il ne doit donc pas dispenser de la mise en place de solides procédures de sauvegardes ou de récupération de données.
Pannes de systèmes RAID : comprendre et anticiper
Réaliser une simulation de panne de RAID, lors de l’installation d’un nouveau système, peut s’avérer intéressant pour votre entreprise. Cela vous permettra de comprendre la configuration de votre système RAID, d’éprouver la mise en œuvre correcte des procédures administratives et matérielles en cas de panne et, le cas échéant, de déclencher un PCA/PRA adapté.
Les systèmes RAID les plus fréquemment déployés sont RAID 0, RAID 1, RAID 5 et RAID 6. Leurs rapports entre performances, tolérance aux pannes et sécurité des données dépendent de la manière dont sont agrégées les grappes de disques durs qui les composent. A l’exception du RAID 0, uniquement dédié à la vitesse de lecture/écriture, tout système RAID implique la sécurité d’au moins un disque dur.
La sécurité d’un RAID est néanmoins toute relative, y compris sur des systèmes considérés comme fiables. La majorité des pannes débute par la perte d’un seul disque dur au sein de la configuration. Mais un effet de cascade peut se produire lorsque les disques d’une grappe ou d’un RAID appartiennent à la même série ou au même lot : ayant eu une activité identique, ils peuvent devenir inopérants dans un délai très rapproché.
Remplacer un disque dur de RAID : les différentes étapes
Le remplacement d’un disque dur dans un système RAID nécessite le respect de plusieurs étapes.
Lors de la plupart des pannes, une alerte est envoyée à l’administrateur du RAID (alerte mail, signal sonore, voyant lumineux…). Il est alors important de relever ces alertes, d’engager une levée de doute et de lancer les procédures adéquates. Tant que le volume de stockage RAID est accessible et avant toute autre opération, il est indispensable de réaliser une sauvegarde des données et/ou de vérifier les sauvegardes journalières.
La seconde étape consiste à remplacer le disque dur défectueux. Il s’agit de l’étape la plus critique dans la gestion de la panne : à l’exception du RAID 6, le système n’est à ce moment-là plus du tout sécurisé. La livraison d’un disque de remplacement pouvant parfois prendre plusieurs jours, la période de vulnérabilité peut s’avérer très longue.
La troisième étape consiste à engager la reconstruction des données sur le système RAID suite au remplacement du disque dur défectueux. Phase également critique et délicate, ce processus implique des opérations d’écriture irréversibles, aussi bien sur le nouveau disque dur que, parfois, sur les zones de parités des autres disques.
Pannes en cascades sur système RAID : vos derniers recours
Ainsi que nous l’avons évoqué plus haut, les pannes sur système RAID peuvent s’enchaîner lorsque les disques durs sont issus d’un même lot ou de la même série. Ces pannes en cascade peuvent alors entraîner la perte ou l’inaccessibilité de vos données. Des opérations de récupération de données sur système RAID doivent alors être envisagées.
Lors de la seconde étape (et toujours à l’exception du RAID 6), il ne faut surtout pas remplacer plus d’un disque dur défectueux au risque de perdre définitivement vos données. Et en cas de perte de données, la meilleure action sera d’éteindre l’alimentation des disques durs.
Si un disque dur du système RAID devient inopérant lors de la phase de reconstruction des données, de mauvaises informations peuvent s’écrire de façon irrémédiable sur les autres disques. Ces écritures corrompues peuvent alors entraîner une perte définitive de données.
Dans l’ensemble des cas, il est donc préférable de vous rapprocher d’un laboratoire de récupération de données, qui pourra extraire vos données et réaliser une copie de vos disques durs défectueux avant toute autre opération (remplacement de disque, opération de reconstruction des données, etc.).
13 mars 2020