Test de RAID

Comment une évaluation complète d'une configuration RAID?

Tirer des lecteurs est une chose, mais y at-il des outils et des techniques pour plus?

J'ai envisagé de mettre un clou à travers un lecteur de course (nailgun actionné par poudre) pour voir ce qui se passerait, ou en simulant diverses anomalies élecsortingques (short / opens in cable, power overloads and surges, etc.).

Que faut-il tester et comment?

-Adam

  • Dans les lecteurs où hot-swap n'est pas une option, de nombreuses commands de raid (p.ex. mdadm sur linux) ont une command décontaminée qui simule une défaillance du lecteur.
  • Dans les lecteurs où hot-swap est correct, tirez un lecteur!

Je pense que vos tests devraient couvrir les cas raisonnables que vous prévoyez. Si vous essayez de configurer un server dans le buisson, les fluctuations élecsortingques sont des sets de tests raisonnables. Si vous êtes dans un centre de données, l'accord de service couvre probablement le pouvoir.

Si vous pensez qu'un disque explosant à l'intérieur d'un rack est raisonnable – puis testez-le. Peut-être que vous installez un server dans un centre de commandment à Bagdad. Mais encore une fois, less probable si vous êtes dans l'État de Washington.

En règle générale, vos tests devraient couvrir tous les cas attendus:

  • Drive est vieux et finit par devenir mauvais (trouvez un lecteur sur ses dernières jambes, faites-le courir, puis battez-le jusqu'à ce qu'il échoue)
  • Drive échoue à un test intelligent mais semble bon mais vous souhaitez le replace juste-en-cas
  • Rlocation général du lecteur en raison de la mise à niveau de la taille / performance ou vous venez d'entendre le lot était mauvais

Et des cas extrêmes raisonnables .

  • Le server perd brusquement son pouvoir – d'accord.
  • Le server lui-même est touché par la foudre – pas tellement.
  • Le rack tombe – ok.
  • Rack heurté par camion – pas tellement.
  • Conduire étant bousculé – d'accord
  • Dirigez-vous à être jeté – pas tellement.

Et surtout: RAID ne protège pas contre les disques qui corrompent silencieusement datatables! Alors assurez-vous de faire des hachis et la vérification des files!

En effet, il est important de tester un défaillance du lecteur sans équivoque si vous vous souciez de la fiabilité ultime de la solution globale. Toute solution RAID échouée (c'est-à-dire que la redondance ne protège pas contre les disques défectueux) que j'ai vu est due au défaut de tester les erreurs de lecteur réelles. Le test normal consiste à tirer un disque, à affirmer que la défaillance du lecteur a été testée et à continuer.

La meilleure solution est probablement d'avoir une collection de lecteurs marginaux, ou un microprogramme modifié qui provoque des réponses incohérentes. Seuls les fournisseurs de stockage sont susceptibles d'avoir cette capacité.

J'aime l'idée de mettre un clou à travers un entraînement en cours d'exécution, mais les forces sur les disques adjacents peuvent entraîner une panne catastrophique irréalist. Ou l'échec complet du lecteur peut entraîner une panne irréalist.

Si j'étais autorisé à faire des tests légitimes d'un RAID, je détruisais quelques lecteurs avec différents moyens. Raccordez les fils aux composants randoms sur le panneau du lecteur et faites-les frire ou raccrochez-les. En effet, mettez un clou à travers un lecteur si la geometry de l'enceinte rend peu probable la destruction des disques adjacents. (Je pense que le armsage résultant du rest du tableau est un test raisonnable). Interceptez le path de données d'un lecteur et renvoie toutes les erreurs possibles, des résultats absurdes ou des résultats corrects retardés par des time de time randoms.

Attendez-vous que les lecteurs renvoient le mauvais bloc parfois. Attendez-vous aux entraînements pour provoquer tout problème élecsortingque concevable sur leur connection.

Mon expérience est que personne ne considère un achat de stockage ne veut faire de tests réels. Cela pourrait exposer des problèmes réels. Je serais très intéressé d'entendre s'il y a quelqu'un qui teste effectivement la fiabilité du stockage – certainement, ils ne publient pas leurs résultats.