HP ProLiant DL360 G7 s'accroche à l'écran "Power and Thermal Calibration"

J'ai un nouveau système HP ProLiant DL360 G7 qui présente un problème difficile à reproduire. Le serveur se bloque au hasard à l'écran « Énergie thermique et étalonnage thermique en cours … » pendant le processus POST . Cela suit généralement un démarrage à chaud / redémarrage à partir du système d'exploitation installé.

Entrez la description de l'image ici

Le système s'arrête indéfiniment à ce stade. L'émission d'une réinitialisation ou d'un démarrage à froid via les commandes d'alimentation ILO 3 permet au système de démarrer normalement sans incident.

Lorsque le système est dans cet état, l'interface de l'OIT 3 est entièrement accessible et tous les indicateurs de santé du système sont bien définis (tout vert). Le serveur se trouve dans un centre de données contrôlé par le climat avec des connexions électriques à la PDU. La température ambiante est de 64 ° F / 17 ° C. Le système a été placé dans une boucle de test de composants 24 heures sur 24 avant le déploiement sans échec.

Le système d'exploitation principal de ce serveur est VMWare ESXi 5. Nous avons essayé initialement 5.0 et plus tard une version 5.1. Les deux ont été déployés via PXE boot et kickstart. En outre, nous testons les installations Baremetal Windows et Red Hat Linux.

Les systèmes HP ProLiant disposent d'un ensemble complet d'options BIOS. Nous avons essayé les paramètres par défaut en plus du profil Static haute performance. J'ai désactivé l' écran de démarrage et je viens d'avoir un curseur clignotant à ce point par rapport à la capture d'écran ci-dessus. Nous avons également essayé quelques «meilleures pratiques» de VMWare pour la configuration du BIOS . Nous avons vu un avis de HP qui semble décrire un problème similaire , mais n'a pas résolu notre problème spécifique.

En soupçonnant un problème de matériel, j'ai demandé au fournisseur d'envoyer un système identique pour la livraison le jour même. Le nouveau serveur était une construction entièrement identique à l'exception des disques. Nous avons déplacé les disques de l'ancien serveur vers le nouveau. Nous avons connu le même problème de démarrage aléatoire sur le matériel de remplacement.

J'ai maintenant les deux serveurs en parallèle. La question frappe au hasard sur des chaussures chaudes. Les bottes à froid ne semblent pas avoir le problème. Je regarde quelques-uns des paramètres de BIOS plus ésotériques comme la désactivation de Turbo Boost ou la désactivation de la fonction d'étalonnage de puissance entièrement. Je pourrais essayer cela, mais ils ne devraient pas être nécessaires.

Des pensées?

–modifier–

Détails du système:

  • DL360 G7 – 2 x processeurs X5670 Hex-Core
  • 96 Go de RAM (12 x 8 Go de DIMM basse tension)
  • Disques durs SAS 2 x 146 Go 15k
  • Alimentations redondantes de 2 x 750 W

Tous les firmware sont à jour dès le dernier Service Pack HP pour la version DVD ProLiant.

En appelant HP et en train de traîner l'interwebz, j'ai vu des menaces d'une mauvaise interaction de l'OIT 3, mais cela arrive aussi avec le serveur sur une console physique. HP a également suggéré une source d'alimentation, mais cela se trouve dans un rack de centre de données qui gère avec succès d'autres systèmes de production.

Est-il possible que cela puisse être une mauvaise interaction entre les modules DIMM basse tension et les alimentations 750W? Ce serveur doit être une configuration prise en charge.

One Solution collect form web for “HP ProLiant DL360 G7 s'accroche à l'écran "Power and Thermal Calibration"”

Donc, après avoir mis un troisième système dans le mélange, et ayant le même problème, nous avons commencé à remettre en question l'environnement. J'ai creusé une copie du Guide de dépannage des serveurs HP ProLiant et j'ai trouvé le diagramme de problèmes POST montré ci-dessous.

Entrez la description de l'image ici

En parcourant prudemment les étapes du tableau, nous avons constaté que la constante sur tous les serveurs était un commutateur KVM attaché au chariot de sécurité du centre de données. Il s'agissait d'un KVM USB à capacité de consommation. Selon le noeud surélevé dans l'organigramme, avez-vous connu un bon KVM? , Je n'ai pas répondu de façon définitive.

Nous avons donc débranché les serveurs du commutateur KVM et exécuté un démarrage automatisé, sleep 300; reboot sleep 300; reboot séquence de sleep 300; reboot dans rc.local . Les serveurs n'avaient aucun problème, quel que soit le DIMM normal, les DIMM à basse tension, la puissance de l'alimentation électrique, etc.

Tout cela résultait d'une mauvaise interaction avec un commutateur USB KVM. En vertu de cette consigne, cela nous a permis de voir l'échec si nous le recherchions. Auto-réalisable …

  • Que faire avec les systèmes Mac Power PC
  • Méthode de taille du server
  • Quels sont vos sites de vente de matériel préférés?
  • Pourquoi tout le monde a-t-il la même adresse MAC que moi?
  • Quel controller dois-je acheter pour un lecteur de bande SCSI-3?
  • Les unités "entreprise" peuvent-elles être remplacées en toute sécurité par la ligne proche / moyenne dans certaines situations?
  • Quelle est la meilleure approche pour effacer toutes datatables d'un disque dur instantanément?
  • HP Proliant DL380 G3 ne démarre pas. Erreur "Ventilateur 1611 7 pas présent" après avoir changé d'alimentation
  • Quelle est la bande passante et le facteur de forme pour PCIe x1 x4 x8 et x16?
  • Quel est le meilleur server pour cette application
  • IBM Xseries 3400 ne fonctionne que lorsque le button d'alimentation est enfoncé
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.