"La couche physique Intel QPI a détecté une réinitialisation dans la bande QPI mais une initialisation interrompue"

J'ai un server linux qui a enregistré l'erreur suivante de mcelog:

Hardware event. This is not a software error. MCE 0 CPU 0 BANK 20 MISC 800000 TIME 1476167381 Tue Oct 11 06:29:41 2016 MCG status: MCi status: Corrected error MCi_MISC register valid MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction Request-did-not-timeout QPI: Intel QPI physical layer detected a QPI in-band reset but aborted initialization STATUS 8800004000200e0f MCGSTATUS 0 MCGCAP 7000c16 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 63 

Je peux find une reference à cette erreur dans les documents de programmation de système Intel et à surveiller le code sur github, mais rien n'indique la cause, l'effet et les actions proposées. J'ai lu les dernières notes de mise à jour de microcode pour voir si elle est mentionnée mais ne peut rien find.

L'erreur pourrait être un «type de rayonnement cosmique» ou un «non-événement» à ignorer, mais quelqu'un peut-il élaborer avec des conseils sur le système d'administration du système réel?

Merci

One Solution collect form web for “"La couche physique Intel QPI a détecté une réinitialisation dans la bande QPI mais une initialisation interrompue"”

Je suppose que c'est une paire de processeurs E5-2640v4 (le v # à la fin importe ).

Vous devez vérifier la feuille d'errata du processeur (searchr les documents "mise à jour de la spécification" pour votre processeur spécifique), car il existe plusieurs erreurs sur les problèmes QPI sur de nombreux templates de processeurs …

Ok: http://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v4-spec-update.pdf ne répertorie aucune erreur qui entraînerait ce comportement QPI. Vous pourriez avoir un défaut matériel, ou vous avez subit une erreur erronée (plus commune que vous ne le penseriez).

Cependant, Supermicro est une merde absolue pour maintenir son BIOS à jour (ils ont toujours cette déclaration scandaleuse de ne jamais mettre à jour votre BIOS sur leurs pages de support), afin de pouvoir supposer en toute security qu'il aura des composants de kit de firmware de plate-forme périmés tels que le microcode mises à jour et bytecode d'installation de la plate-forme.

Donc, vous pouvez toujours espérer qu'une mise à jour du firmware vous aiderait. Comme prévu de Supermicro, même le dernier BIOS pour cette carte mère est trop vieux, une mise à jour de microcode, en dessous de la version minimale recommandée à utiliser lors de l'exécution de Linux (vous souhaitez au less réviser 0x0b00001d, à partir de 2016-06-06). Veuillez installer le package de mise à jour de microcode pour votre distro (doit être basé sur la version d'Intel 20160714 ou ultérieure), qui pourrait vous aider.

Étant donné que le support de supermicro est généralement très bon pour résoudre les problèmes causés par leur blague d'un cycle de vie de gestion de firmware de server / post de travail. Signaler le problème directement et requestr un BIOS bêta avec un microprogramme mis à jour (microcode, microprogramme, microprogramme ME / AMT / TPM et composants de configuration de la plate-forme). Ils pourraient vous dire à RMA le conseil plutôt que, s'ils le considèrent comme plus susceptible d'être un défaut matériel.

Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de réseau.