Probabilité de l'échec du châssis de lame

Dans mon organisation, nous pensons acheter des serveurs lames – au lieu de serveurs rack. Bien sûr, les fournisseurs de technologie les rendent aussi très sympa. Un souci, que j'ai lu très souvent dans différents forums, est qu'il existe une possibilité théorique de basculement du châssis du serveur – ce qui, en conséquence, réduirait toutes les pales. Cela est dû à une infrastructure partagée.

Ma réaction à cette probabilité serait d'avoir une redondance et deux châssis au lieu d'un (très coûteux, bien sûr).

Certaines personnes (y compris, par exemple, HP Vendors) tentent de nous convaincre, que le châssis est très peu susceptible d'échouer, en raison de nombreuses redondances (alimentation redondante, etc.).

Une autre préoccupation de mon côté, c'est que si quelque chose tombe, des pièces de rechange pourraient être nécessaires – ce qui est difficile dans notre localisation (Ethiopie).

Je demanderais donc aux administrateurs expérimentés, qui ont géré le serveur lame: quelle est votre expérience? Est-ce qu'ils descendent dans leur ensemble – et quelle est l'infrastructure partagée raisonnable, qui pourrait échouer?

Cette question pourrait être étendue au stockage partagé. Encore une fois, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule – et encore une fois, les vendeurs disent que ces choses sont si solides, qu'aucun échec n'est attendu.

Eh bien, je ne peux pas croire qu'une telle infrastructure critique peut être très fiable sans redondance – mais peut-être que vous pouvez me dire si vous avez des projets réussis basés sur des lames, qui fonctionnent sans redondance dans ses parties centrales (châssis, stockage … )

À l'heure actuelle, nous regardons HP, car IBM semble trop coûteux.

7 Solutions collect form web for “Probabilité de l'échec du châssis de lame”

Il y a une faible probabilité d'échec complet du châssis …

Vous rencontrerez probablement des problèmes dans votre installation avant de conserver une panne complète d'un boîtier de lame.

Mon expérience concerne principalement les enceintes à puce HP C7000 et HP C3000 . J'ai également géré les solutions Dell et Supermicro blade. Le vendeur importe un peu. Mais en résumé, l'équipement de HP a été stellaire, Dell a bien fonctionné, et Supermicro manquait de qualité, de résilience et était tout simplement mal conçu. Je n'ai jamais éprouvé d'échecs sur le côté HP et Dell. Le Supermicro a eu de sérieuses pannes, nous obligeant à abandonner la plate-forme. Sur HP et Dell, je n'ai jamais rencontré une panne complète du châssis.

  • J'ai eu des événements thermiques. La climatisation a échoué dans une installation de co-implantation en envoyant des températures à 115 ° F / 46 ° C pendant 10 heures.
  • Surtensions et pannes de ligne: perte d'un côté d'une alimentation A / B. Panne d'alimentation individuelle. Il y a habituellement six blocs d'alimentation dans les configurations de votre lame, donc il y a beaucoup d'avertissement et de redondance.
  • Défaillance du serveur lame individuel. Les problèmes d'un serveur ne touchent pas les autres dans l'enceinte.
  • Un incendie dans le châssis …

J'ai vu une variété d'environnements et j'ai eu l'avantage d'installer dans des conditions de centre de données idéales, ainsi que des endroits plus difficiles. Sur le côté HP C7000 et C3000, la principale chose à considérer est que le châssis est entièrement modulaire. Les composants sont conçus pour minimiser l'impact d'une panne de composant affectant l'ensemble de l'unité.

Pensez-y comme ça … Le châssis principal C7000 est composé d'assemblages avant et arrière (passifs) et de fond de panier. L'enceinte structurelle maintient simplement les composants avant et arrière et soutient le poids des systèmes. Presque toutes les parties peuvent être remplacées … croyez-moi, j'ai tout décomposé. Les redondances principales sont en matière de ventilation / refroidissement, d'alimentation et de mise en réseau d'une gestion. Les processeurs de gestion ( HP Onboard Administrator ) peuvent être jumelés pour la redondance, mais les serveurs peuvent fonctionner sans eux.

Entrez la description de l'image ici

Enceinte pleinement peuplée – vue de face. Les six alimentations en bas de la profondeur du châssis et la connexion à un ensemble de fond de panier modulaire à l'arrière de l'enceinte. Les modes d'alimentation sont configurables: par ex. 3 + 3 ou n + 1. Donc, l'enceinte a définitivement la redondance d'alimentation. Entrez la description de l'image ici

Boîtier pleinement peuplé – vue arrière. Les modules de réseau Virtual Connect à l'arrière ont une connexion de connexion interne afin que je puisse perdre un côté ou l'autre et maintenir une connectivité réseau avec les serveurs. Il existe six blocs d'alimentation remplaçables à chaud et dix ventilateurs remplaçables à chaud. Entrez la description de l'image ici

Boîtier vide – vue de face. Notez qu'il n'y a vraiment rien à cette partie de l'enceinte. Toutes les connexions sont transmises au plan médian modulaire. Entrez la description de l'image ici

Assemblage du plan médian retiré. Notez les six alimentations pour l'ensemble du plan médian en bas. Entrez la description de l'image ici

Ensemble de plan médian. C'est là que se passe la magie. Notez les 16 connexions séparées du plan descendant: une pour chacun des serveurs lames. J'ai eu des sockets / baies de serveur individuelles échouées sans tuer l'enceinte entière ou affecter les autres serveurs. Entrez la description de l'image ici

Tableau (s) de fond d'alimentation électrique. Unité 3 ° sous module monophasé standard. J'ai changé la distribution d'alimentation dans mon centre de données et j'ai simplement échangé le fond de panier de l'alimentation pour faire face à la nouvelle méthode de livraison d'alimentation Entrez la description de l'image ici

Dommage au connecteur du châssis. Cette enceinte particulière a été déposée au cours de l'assemblage, en dégageant les broches d'un connecteur de ruban. Cela est passé inaperçu pendant des jours, ce qui a amené le châssis à la course de feu FIRE … Entrez la description de l'image ici

Voici les restes carbonisés du câble plat du plan médian. Cela a contrôlé une partie de la surveillance de la température et de l'environnement du châssis. Les serveurs lames continuaient à fonctionner sans incident. Les parties affectées ont été remplacées à loisir pendant les temps d'arrêt planifiés, et tout s'est bien passé. Entrez la description de l'image ici

Je gère un petit nombre de serveurs lames depuis huit ans maintenant, et je n'ai pas encore eu d'échec à l'échelle du système qui a pris plusieurs nuances hors ligne. Je suis réellement fermé en raison de problèmes liés à l'alimentation, mais je n'ai pas encore eu d'échec à l'échelle du châssis qui n'était pas attribuable à des sources extérieures.

Votre observation selon laquelle le châssis représente un point de défaillance unique est correcte, même si elles constituent une grande quantité de redondances ces jours-ci. Tous les systèmes à lames que j'ai utilisés ont eu des flux d'alimentation parallèles sur les pales et de multiples prises réseau traversant des chemins distincts et dans le cas des chemins multiples Fiber-channel de la lame aux ports optiques arrière-rack. Même le système d'information du châssis avait plusieurs voies.

Avec l'ingénierie réseau appropriée (utilisation NIC redondante, MPIO pour le stockage), les événements à problème unique sont entièrement compatibles. Au cours de mon temps avec ces systèmes, j'ai eu les problèmes suivants, dont aucun n'a affecté plus d'une lame, le cas échéant:

  • Deux alimentations échouent dans la crémaillère. Il y avait assez de redondance dans l'autre 4 pour supporter la charge.
  • Permet une phase pour une alimentation triphasée. Ces fournitures sont rares ces jours-ci, mais les deux autres phases ont une capacité suffisante pour supporter la charge.
  • Perdre une boucle de gestion inter-châssis. C'était comme ça pendant des années avant qu'un technicien fournisseur à un autre appel l'ait remarqué.
  • Perdre totalement les boucles de gestion inter-châssis. Nous avons perdu l'accès à la console de gestion, mais les serveurs continuaient à fonctionner comme si rien ne se passait.
  • Quelqu'un a redémarré accidentellement le fond de panier réseau arrière-rack. Tout dans ce châssis utilisait des NIC redondantes, alors il n'y avait aucune interruption de service; Tout le trafic s'est déplacé vers l'autre fond de panier.

Cependant, le point de TomTom sur le coût est très vrai. Pour parvenir à la parité de coûts intégrale, votre châssis à lame devra être entièrement chargé et ne nécessite probablement pas de choses spéciales comme les interrupteurs arrière-rack. Les racks de lames ont un sens dans les zones où vous avez vraiment besoin de la densité car vous avez une contrainte d'espace

Cette question pourrait être étendue au stockage partagé. Encore une fois, je dirais que nous avons besoin de deux unités de stockage au lieu d'une seule – et encore une fois, les vendeurs disent que ces choses sont si solides, qu'aucun échec n'est attendu.

En fait non. Vous avez déjà l'impression que cette phrase les met dans "lisez les choses devant vos yeux". HA avec une réplication complète est une fonctionnalité d'entreprise connue pour les unités de stockage. Le point est qu'un SAN (l'unité de stockage est beaucoup plus complexe qu'un châssis à lame qui à la fin est juste «stupide en métal». Tout dans un châssis à lame, à l'exception de certains arrière-plans, est remplaçable – tous les modules, etc. sont remplaçables et des lames individuelles ARE Autorisé à échouer. Personne ne dit que le centre de lame lui-même donne aux lames une grande disponibilité.

Ceci est beaucoup différent d'un SAN qui est censé être jusqu'à 100% du temps – dans un état cohérent – donc vous avez des choses comme la réplication, etc.

C'EST DIT: regardez vos numéros. J'ai envisagé d'acheter des lames depuis un certain temps maintenant et ils n'ont jamais eu de sens financier. Le châssis est tout simplement trop cher et les lames ne sont pas vraiment moins chères par rapport aux ordinateurs ordinaires. Je suggérerais d'envisager l'architecture Twin SuperMicro comme alternative.

Les serveurs lames avec lesquels j'ai eu l'expérience sont ceux d'IBM. Ceux-ci sont totalement modulaires et il y a beaucoup de redondance intégrée. Donc, si quelque chose va échouer, ce sera l'un des composants comme un PSU ou un commutateur modulaire, etc. Mais là encore, il existe une redondance même dans ceux-ci.

Depuis qu'il a été impliqué dans les lames IBM, je n'ai jamais vu un échec complet avant.

Avec les autres marques, je pense qu'elles seraient construites de la même manière.
Ce serait une bonne idée de parler aussi à un vendeur et de faire beaucoup de lecture.
C'est un gros investissement.

Les pannes résultant de plusieurs pannes du serveur lame dans la même enceinte sont comparables (dans la vraisemblance et la cause) aux pannes provoquant plusieurs arrêts de serveur dans le même rack.

Configuration initiale pour minimiser les points de défaillance individuels (deux sources d'alimentation CA séparées , chacune pouvant gérer l'ensemble de la charge, fonctionnant pour séparer les alimentations en courant continu, de sorte que la moitié soit capable de gérer l'ensemble de la charge; deux connexions réseau distinctes , soit Qui peut gérer toute la charge attendue, etc.) et la différence entre quelque chose qui supprime toutes les pales dans un châssis ou tous les serveurs 2U dans un rack est très faible.

Un souci, que j'ai lu très souvent dans différents forums, est qu'il existe une possibilité théorique de basculement du châssis du serveur, ce qui réduirait en conséquence toutes les nuances. Cela est dû à une infrastructure partagée.

Effectivement! Il y a environ 5 ans, lors de la gestion de deux boîtiers de piles HP Proliant p-Class, j'ai rencontré plusieurs fois des problèmes de châssis.

J'ai eu des serveurs lames qui ne pouvaient pas allumer, s'ils avaient été désactivés (les serveurs ne sont pas désactivés souvent, mais nous sommes devenus un problème très réel pour nous). J'ai subitement mis des serveurs et je ne pouvais pas être réactivé. Enfin, j'ai tous les serveurs éteints et je ne pouvais pas recommencer.

Comme je l'ai rappelé, à peu près tous les problèmes ont été attribués à de mauvais adaptateurs de puissance ou à des plates-formes de contrôle. Nous avons remplacé un certain nombre de fois et le message non spécifique, hors dossier que j'ai reçu des techniciens, était qu'ils avaient des problèmes avec cette génération d'enceintes à lames.

J'ai décidé à l'époque que le bénéfice des serveurs lames ne valait tout simplement pas le risque, si j'avais quelque chose à dire dans les achats futurs.

Avance rapide vers mon prochain employeur, et mon actuel, pour cette question. Ils avaient déjà des enceintes HP Proliant c-Class en cours d'exécution, donc mon sentiment de chaleur pour les lames n'a pas vraiment d'importance. Au cours des 5 années, j'ai traité avec les boîtiers c-Class, je n'ai jamais vécu quelque chose comme je l'ai fait avec la classe p, où une enceinte entière m'a échoué. Ils ont couru sans problème majeur.

(Sauf pour le moment où une tempête de pluie a envoyé de la pluie à travers le toit, 4 étages, un petit trou dans le sceau de la salle d'ordinateur, en bas d'un câble et dans le châssis)

Les deux DELL et HP Blade châssis manquent d'un moyen-plan redondant. C'est là que IBM Bladecenter s'avère être un gagnant. À ma connaissance, c'est le seul châssis à lames qui fournit un milieu planaire redondant. Bien que HP offre une fantastique suite de logiciels de gestion pour les lames, nous avons acheté un Bladecenter E pour notre entreprise pour éviter un seul point d'échec de l'ensemble du châssis.

  • Utilisation de disques virtuels ou création de volumes RAID pour combiner plusieurs disques
  • Correction du placement de périphériques sur un tissu Fibre Channel
  • Comment configurer une cible Infiniband SRP?
  • SQLServer Split Database File et FileGroups
  • QNAP TS-859U + volume RAID5 non monté, e2fsck_64 se bloque
  • Questions sur le SAS et le serveur débutant
  • VSPEX vs vBlock
  • Limite de taille maximale pour le client CIFS consulté par Windows Server 2003 (32 bits) Client?
  • Disque repurposé - La command blkid Linux renvoie des informations incorrectes
  • Peut-on "append" plus de ports SAS à un fond de panier existant?
  • Quelle est une bonne solution gratuite (ou pas cher) pour les sauvegardes à distance sur Server 2003
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.