corruption de files sur lecture / écriture 2.6.32-22-server (se produit sur plusieurs kernelx)

J'ai un problème où, après le début du server pendant un certain time (~ semaine / quelques jours), le server va commencer à lire datatables corrompues. Par exemple, lorsque je lance un file d'un file après un nouveau démarrage, il rest le même. Cependant, après un certain time, je commencerai à get des sélections et dès lors que je lirai ce file, je recevrais un sha1sum différent.

J'ai vérifié SMART avec de longs tests et j'ai exécuté un memtest86 + étendu (12 passes)

Mon lspci est comme suit:

 00: 00.0 Pont hôte: Advanced Micro Devices [AMD] RS780 Host Bridge
 00: 01.0 Pont PCI: Advanced Micro Devices [AMD] RS780 Pont PCI vers PCI (int gfx)
 00: 06.0 Pont PCI: Advanced Micro Devices [AMD] RS780 Pont PCI vers PCI (PCIE port 2)
 00: 07.0 Pont PCI: Advanced Micro Devices [AMD] RS780 Pont PCI vers PCI (PCIE port 3)
 00: 11.0 Contrôleur SATA: ATI Technologies Inc Contrôleur SATA SB700 / SB800 [mode AHCI]
 00: 12.0 Contrôleur USB: ATI Technologies Inc SB700 / SB800 USB OHCI0 Controller
 00: 12.1 Contrôleur USB: ATI Technologies Inc SB700 USB OHCI1 Controller
 00: 12.2 Contrôleur USB: ATI Technologies Inc SB700 / SB800 USB EHCI Controller
 00: 13.0 Contrôleur USB: ATI Technologies Inc SB700 / SB800 USB OHCI0 Controller
 00: 13.1 Contrôleur USB: ATI Technologies Inc Contrôleur SB700 USB OHCI1
 00: 13.2 Contrôleur USB: ATI Technologies Inc SB700 / SB800 USB EHCI Controller
 00: 14.0 SMBus: ATI Technologies Inc SBx00 SMBus Controller (rev 3c)
 00: 14.1 Interface IDE: ATI Technologies Inc Contrôleur SB700 / SB800 IDE
 00: 14.3 Pont ISA: controller hôte ATI Technologies Inc SB700 / SB800 LPC
 00: 14.4 Pont PCI: ATI Technologies Inc SBx00 PCI vers PCI Bridge
 00: 14.5 Contrôleur USB: ATI Technologies Inc SB700 / SB800 USB OHCI2 Controller
 00: 18.0 Pont hôte: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Configuration HyperTransport
 00: 18.1 Pont hôte: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Adresse Carte
 00: 18.2 Pont hôte: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Contrôleur DRAM
 00: 18.3 Pont hôte: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Contrôle Divers
 00: 18.4 Pont hôte: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Link Control
 01: 05.0 Contrôleur compatible VGA: ATI Technologies Inc Radeon HD 3300 Graphics
 01: 05.1 Appareil audio: controller ATI Technologies Inc RS780 Azalia
 02: 00.0 Contrôleur Ethernet: Atheros Communications Atheros AR8121 / AR8113 / AR8114 Contrôleur PCI-E Ethernet (rev b0)
 03: 00.0 FireWire (IEEE 1394): dispositif VIA Technologies, Inc. 3403

Je pourrais vraiment utiliser une aide à ce sujet, avez-vous une idée de ce qui pourrait causer cela? C'est vraiment frustrant, car il semble triggersr tout au hasard et ne disparaîtra pas avant de redémarrer. J'utilise également KVM pour la virtualisation ainsi que MD pour RAID logiciel sur ce server et le processeur est un Phenom II X4 965. Je ne crois pas que ce soit le raid du logiciel, car cela affecte les files hébergés sur les partitions non-raid. Je ne sais pas.

Mise à jour 21 juin 10 Ok, juste la carte mère a été remplacée. Toujours avoir la même erreur. Aucune erreur de CPU que je puisse find; Tous les disques fonctionnent correctement avec un test intelligent. Est-ce que quelqu'un a une idée de ce que cela pourrait être? Je me retire les cheveux ici.

Mise à jour 22 juin 10 J'ai donc vérifié les journaux et j'ai essayé une autre image de file, toujours la même chose. Ceci est tout sur la VM hôte aussi btw.

3 Solutions collect form web for “corruption de files sur lecture / écriture 2.6.32-22-server (se produit sur plusieurs kernelx)”

Mes instincts me disent qu'il s'agit d'un problème de matériel, éventuellement thermique (tel qu'il apparaît après un time d'exécution). Très probablement, vous avez un problème avec le Southbridge ou le matériel connexe.

Envisager d'exécuter des tests de transaction étendus sur le Southbridge, ou simplement replace la carte mère.

Que votre operating system rest stable, mais que vous avez des erreurs d'E / S randoms, vous excluez généralement la CPU / memory, car les erreurs dans celles-ci ont tendance à provoquer une panne et un fonctionnement de l'OS avec l'autre logiciel. Mais la majorité du Kernel est lue à partir du disque au démarrage et n'est jamais échangée, de sorte qu'un système Linux peut être étonnamment stable même s'il ne peut pas lire de manière proactive du disque.

La corruption se produit sur l'hôte lui-même ou dans les machines invitées? Il existe un bug connu dans qemu-kvm qui conduit à la corruption de données dans de grands disques virtuels (voir https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665, par exemple)

Je suis d'accord avec @pehrs qu'il vaut la peine de regarder l'aspect thermique de cela puisque le problème se redresse avec le time. Quel type de server avez-vous? La plupart des montures en rack viennent aujourd'hui un bon nombre de capteurs qui peuvent être utilisés pour surveiller la santé du matériel. Vérifiez les capteurs lm . S'il s'agit d'un server Dell, le package Dell OMSA peut être utile. Je suis sûr que d'autres grands joueurs ont également leurs propres packages propriétaires.

Je pourrais aussi jeter quelques autres idées aussi … cela ne correspond pas vraiment au scénario que vous avez décrit du problème n'apparaissant qu'un instant, mais ils ne peuvent pas nuire.

En ce qui concerne les journaux d'erreur, vous recevez-vous des messages d'erreur dans les journaux du sous-système disque ou RAID? Ou en dmesg? Le logiciel Linux -RAID HOTWO contient des informations sur les types d'erreurs que vous recherchiez. Quelque chose comme un mauvais câble pourrait ne pas apparaître dans les auto-tests SMART du lecteur, mais vous verriez certainement des messages d'erreur enregistrés.

Quelle est la configuration RAID? Quelque chose dans / proc / mdstat? Si (par exemple) le server possédait un disque RAID 5 de 3 et l'un des lecteurs était mauvais, ce qui pourrait causer des problèmes.

Vérifiez également la révision du microprogramme pour votre carte mère / carte SCSI / etc et vérifiez si elle est à jour ou s'il existe des problèmes liés aux E / S de disque qui ont été corrigés.

  • Module de stockage IBM BladeCenter S
  • Partition Centos | Raid
  • Problème de configuration de RAID 5 avec Windows Server 2008
  • Impossible de créer RocketRaid rr268x sur Ubuntu 13.04
  • Mélange SAS 6Gbps et 12Gbps sur le même expandeur
  • Retards d'E / S intermittents sur une partie du réseau RAID entraînant une mauvaise performance MySQL
  • Logiciel Linux RAID 1 - le système de files racine devient read-only après un défaut sur un disque
  • Comment afficher / définir des paires miroir / décaper avec mdadm
  • Utilisation d'udev pour créer un périphérique de caractère en fonction d'un pilote chargé
  • HP Proliant ML350 G5 SAS HDD
  • mdadm raid10 ou nfs problèmes de performance?
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.