exception de lien de réinitialisation difficile Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe congelé

Situation suivante:

Un server productif filux Debian 7 avec kernel 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

Fabricant: Supermicro Nom du produit: X10SLL-F Version: 1.02

Contrôleur SATA: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2x SSD, 2x hdd

chaque lecteur peut faire Sata Rev3 (6.0Gb / s)

 hdparm -I /dev/sd[ad]|egrep "Model|speed|Transport" Model Number: TOSHIBA THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: TOSHIBA THNSNH128GBST Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set Model Number: ST2000VX000-1CU164 Transport: Serial, SATA Rev 3.0 * Gen1 signaling speed (1.5Gb/s) * Gen2 signaling speed (3.0Gb/s) * Gen3 signaling speed (6.0Gb/s) * SMART Command Transport (SCT) feature set 

Les messages du kernel suggèrent (au less pour moi) un problème avec les 4 lecteurs, ce qui me mène à croire que c'est le controller sata qui pourrait être en panne.

 ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata1: irq_stat 0x00400040, connection status changed ata1: SError: { HostInt PHYRdyChg 10B8B DevExch } ata1: hard resetting link ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata2: irq_stat 0x00400040, connection status changed ata2: SError: { HostInt PHYRdyChg 10B8B DevExch } ata2: hard resetting link ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata4: irq_stat 0x00400040, connection status changed ata4: SError: { HostInt PHYRdyChg 10B8B DevExch } ata4: hard resetting link ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen ata3: irq_stat 0x00400040, connection status changed ata3: SError: { HostInt PHYRdyChg 10B8B DevExch } ata3: hard resetting link ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata2.00: configured for UDMA/33 ata2: EH complete ata1.00: configured for UDMA/33 ata1: EH complete ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out ata3.00: configured for UDMA/33 ata3: EH complete ata4.00: configured for UDMA/33 ata4: EH complete 

Ce que j'ai déjà compris (ou je crois avoir compris)

Les commands SECURITY FREEZE LOCK et DEVICE CONFIGURATION OVERLAY ne sont pas importantes pour le problème.

En lisant environ 20 rapports de bug et beaucoup de documentations, quelques-uns ont suggéré de désactiver NCQ, ce que j'ai fait.

D'abord pour un périphérique, après avoir attendu 1 jour pour vérifier si l'erreur se répète, je l'ai désactivé pour tous les 4 périphériques

 echo "1" >/sys/block/sdc/device/queue_depth 

Aucun changement évident dans la situation.

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

D'autres suggèrent un câble sata ou même une incompatibilité entre les lecteurs de carte +.

Cependant, comme je semble avoir le problème sur un lecteur et cela relève à tous les 4, ou avoir le problème directement sur tous les 4 appareils, je ne peux pas identifier le problème plus loin.

Comme il s'agit d'un server de production mettant ce server en panne pour maintenance (aka bios / kernel param changes) est possible, mais j'aime éviter cela si possible.

Selon l'hébergeur, cela pourrait être lié à la gestion de l'alimentation:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

 echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

Avant le changement, cela a été réglé sur max_performance .

Cela n'a pas non plus aidé.

Les valeurs intelligentes des HDD / SDD sont correctes, rien d'évident.

Notez que la valeur UDMA semble être 33 maintenant seulement.

Au démarrage du server, ce sont les valeurs de vitesse de la binding sata:

 [ 3.161850] ata6: SATA link down (SStatus 0 SControl 300) [ 3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [ 3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 3.161907] ata5: SATA link down (SStatus 0 SControl 300) 

La situation pourrait se produire sur une charge élevée sur les HDD uniquement, je n'ai pas testé cela, car cela aurait une incidence sur les performances du server évidemment.

Il n'y a pas de charge sur les SSD, ils sont montés mais pas utilisés par aucun des process.

La RAM est ECC aussi loin que je peux le dire.

 dmidecode -t 17 # dmidecode 2.11 SMBIOS 2.7 present. Handle 0x0023, DMI type 17, 34 bytes Memory Device Array Handle: 0x0022 Error Information Handle: Not Provided Total Width: 72 bits Data Width: 64 bits Size: 8192 MB Form Factor: DIMM Set: None Locator: P1-DIMMA1 Bank Locator: P0_Node0_Channel0_Dimm0 Type: DDR3 Type Detail: Synchronous Speed: 1600 MHz Manufacturer: Samsung Serial Number: 373A6427 Asset Tag: 9876543210 Part Number: M391B1G73QH0-CK0 Rank: 2 Configured Clock Speed: 1600 MHz 

S'il vous plaît, faites-moi savoir si je peux donner des informations supplémentaires car je n'ai pas les idées sur quoi faire ensuite.

2 Solutions collect form web for “exception de lien de réinitialisation difficile Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe congelé”

Selon Supermicro Support, le défaut réside dans le tableau:

Citation:

 This board may need ECO 16238 update. 

Ce que votre expérience de server est essentiellement une renégociation SATA à une vitesse de binding inférieure après un problème de communication avec les lecteurs.

Ces facteurs peuvent être au travail ici (commandé par la probabilité)

  1. opérations IOPS à très latence élevée (par exemple: causées par la garbage collection du controller SSD), ce qui entraîne un timeout de la command SATA. Votre lecteur prend-il en charge la command SATA Trim? Si oui, essayez d'exécuter fssortingm / . Cela change-t-il quelque chose?
  2. Mauvaise carte mère / memory: votre memory est-elle protégée par ECC? Si ce n'est pas le cas, et si vous le pouvez, exécutez une session de test (+ 2 heures) memtest86 plus étendue
  3. incompatibilité des drivers de matériel / logiciel
  4. Contrôleur Bad SATA: bien que peu probable, vous ne pouvez pas l'exclure complètement
  5. Câbles / disques SATA mauvais: les quatre disques vous causent des problèmes, c'est très peu probable
  • Supermicro IPMI et Windows Share
  • Automatiser la connection série-sur-LAN de ssh à SuperMicro IPMI via Putty
  • Supermicro + IPMI + FreeBSD: le kernel imprime à 1 bit
  • Le server se bloque sans panique du kernel
  • Conflit entre Nvidia Grid K2 et charts embeddeds sur Supermicro VDI?
  • Capteur ipmitool: ne détecte pas l'alimentation de secours
  • server ne reconnaissant pas tout le bélier
  • Supermicro IPMIView KVM Console ne fonctionne pas du tout
  • Déplacement de MegaRAID SAS 9240-8i vers un fond de panier: tout ce qui a peur?
  • Puis-je effectuer une mise à jour de l'IPMI bios sans une CPU prise en charge?
  • Le disque est-il lisible en série à partir du châssis supermicro?
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.