Erreurs ECC dans le cache L3 – critique ou non?

Sur un server linux (8x Quad-Core AMD 8378), j'ai les erreurs suivantes:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b [Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag. [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP [Hardware Error]: Machine check events logged 

Cela s'est produit trois fois au cours du dernier mois, mais jamais auparavant (server fonctionnant pendant 3 ans).

À partir d'une search Google rapide, il semble que ce soit une question sérieuse.

Toutefois, le technicien de soutien des fournisseurs a déclaré:

J'ai vu ces erreurs Moins de fois, et à less que vous n'inclinez votre CPU – ou que vous ayez un problème de ventilateur ou similaire – il est très peu susceptible d'être un problème de processeur. Il est plus probable que le kernel soit mal rapporté à l'erreur.

Alors – est-ce une erreur critique et je devrais order de nouvelles pièces (replace la CPU?) Ou l'ignorer?

Merci beaucoup.

2 Solutions collect form web for “Erreurs ECC dans le cache L3 – critique ou non?”

Meilleure pratique: conservez vos propres pièces de rechange, si possible.

En ce qui concerne les exceptions de vérification de machine, celles-ci sont signalées par le matériel ; Le kernel vous transmet simplement le message, afin que vous puissiez prendre des mesures avant que le problème du matériel ne soit ouvert et entraîne une véritable catastrophe.

La seule instance que j'ai pu find d'un kernel de "déclaration erronée" était une exception de vérification de machine qui était la suivante. Dans ce cas , c'était un défaut dans le processeur qui causait le problème, pas le kernel.

Les processeurs familiaux E7 de processeur Intel Xeon ont un problème dans lequel certaines transitions c-state peuvent provoquer des erreurs de vérification de vérification de machine fausses (MCE) pouvant être signalées par MCE bank 6 à l'user. Sur certains systèmes de famille de processeurs E7, cela a entraîné des «inondations» d'erreurs de MCE. Ce patch désactive les rapports d'erreur MCE pour la banque 6.

En bout de ligne: Il me semble que le fournisseur essaie d'éviter de replace votre matériel défectueux.

Sur les servers d'entreprise, nous l'avons manipulé comme suit: requestz au fournisseur de replace si les erreurs sont excessives ou si elles se répètent semaine après semaine. En fait, le service de surveillance des events a déclenché tout cela par lui-même. Aucune question posée.

En passant à x86, nous avons également des histoires sur EDAC / MCE confus, etc. Si les erreurs continuent, le matériel devrait être remplacé.

(Il y a aussi de faibles chances d'être connecté à de grands events solaires. Il est possible, mais le matériel PC étant floconneux et les vendeurs qui refusent de replace quelque chose sont beaucoup plus courants)

  • comparaison des performances du disque des machines
  • Pourquoi ls -la montre-t-il que le directory actuel est un lien symbolique?
  • L'utilisateur veut se déconnecter du shell à la sortie du script bash
  • La discipline de mise en ligne Linux peut-elle seulement limiter la latence? Peut-il être désactivé?
  • Cross-platform, humain-lisible, du sur la partition racine qui ignore vraiment d'autres filesystems
  • Bouton de mise hors tension Module ou package Linux
  • Deux interfaces réseau et deux adresses IP sur le même sous-réseau sous Linux
  • Configuration de Linux iptables pour les connections FTP PASV
  • Comment puis-je créer une nouvelle CSR en utilisant datatables d'une CSR précédente?
  • La session ssh non interactive ne se termine pas, le processus sshd attend toujours après la sortie d'un script
  • Existe-t-il un moyen d'get des informations de mise à jour Windows depuis Linux?
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.