Probleme disque dur aléatoire Résolu

Question

Bonjour, 

Voilà deux fois que mon PC s'éteint brutalement et un peu aléatoirement.

Ce PC tourne sous Linux. Les deux fois où le PC s' est éteint, le processus de vérification des disques (commande fsck (équivalente à scandisk sous Windows) lancée automatiquement à intervalle régulier) était initié mais n'a pu aller au bout. Par contre, quand cette vérification n'est pas programmée, aucun problème de démarrage.

Voici un petit historique :

1)  La première fois, après deux extinctions brutales, j'ai redémarré sur Debian 8 (au lieu de Mageia 4) immédiatement et sans problème, y-compris la procédure de vérification des partitions. J'en ai profité pour vérifier la partition Mageia qui était saine.

2) Redémarrage immédiat sous Mageia et sans problème.

3) Une jolie suite de démarrages réussis s'ensuit pendant plusieurs jours.

4) Rebelote ! Mageia 5 (5 au lieu de 4 parce que j'ai upgradé entretemps sans problème) démarre, commence sa procédure programmée fsck et plante. Machine éteinte !

5) Je redémarre sur PartedMagic (live CD) afin de pouvoir lancer un processus de vérification de chaque partitions puisque aucunes ne seront montées et utilisées.
La commande fsck (sous PartedMagic en mode Live CD) n'a rien révélé. Toutes les partitions sont saines. Absolument toutes.

6) Pensant alors à un problème plus physique, j'ai pensé aux données SMART. Sous Linux, ces données SMART peuvent être relevées avec l'application gsmartcontrol. Je joint en fin de message le fichier texte résultat (assez pénible) que je ne sais pas interpréter.

Ce disque dur est-il en train de mourir ?

smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.19.8-desktop-3.mga5] (local build)Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org=== START OF INFORMATION SECTION ===Model Family:     Western Digital Caviar Green (AF, SATA 6Gb/s)Device Model:     WDC WD20EZRX-00DC0B0Serial Number:    WD-WCC300854383LU WWN Device Id: 5 0014ee 208f91f61Firmware Version: 80.00A80User Capacity:    2 000 398 934 016 bytes [2,00 TB]Sector Sizes:     512 bytes logical, 4096 bytes physicalDevice is:        In smartctl database [for details use: -P show]ATA Version is:   ACS-2 (minor revision not indicated)SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)Local Time is:    Sat Jul  4 01:57:12 2015 CESTSMART support is: Available - device has SMART capability.SMART support is: Enabled=== START OF READ SMART DATA SECTION ===SMART overall-health self-assessment test result: PASSEDGeneral SMART Values:Offline data collection status:  (0x82)	Offline data collection activity					was completed without error.					Auto Offline Data Collection: Enabled.Self-test execution status:      (   0)	The previous self-test routine completed					without error or no self-test has ever 					been run.Total time to complete Offline data collection: 		(27600) seconds.Offline data collectioncapabilities: 			 (0x7b) SMART execute Offline immediate.					Auto Offline data collection on/off support.					Suspend Offline collection upon new					command.					Offline surface scan supported.					Self-test supported.					Conveyance Self-test supported.					Selective Self-test supported.SMART capabilities:            (0x0003)	Saves SMART data before entering					power-saving mode.					Supports SMART auto save timer.Error logging capability:        (0x01)	Error logging supported.					General Purpose Logging supported.Short self-test routine recommended polling time: 	 (   2) minutes.Extended self-test routinerecommended polling time: 	 ( 279) minutes.Conveyance self-test routinerecommended polling time: 	 (   5) minutes.SCT capabilities: 	       (0x70b5)	SCT Status supported.					SCT Feature Control supported.					SCT Data Table supported.SMART Attributes Data Structure revision number: 16Vendor Specific SMART Attributes with Thresholds:ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0  3 Spin_Up_Time            0x0027   177   169   021    Pre-fail  Always       -       4133  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       485  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4056 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       481192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       7193 Load_Cycle_Count        0x0032   195   195   000    Old_age   Always       -       15379194 Temperature_Celsius     0x0022   104   100   000    Old_age   Always       -       43196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0SMART Error Log Version: 1ATA Error Count: 26143 (device log contains only the most recent five errors)	CR = Command Register [HEX]	FR = Features Register [HEX]	SC = Sector Count Register [HEX]	SN = Sector Number Register [HEX]	CL = Cylinder Low Register [HEX]	CH = Cylinder High Register [HEX]	DH = Device/Head Register [HEX]	DC = Device Command Register [HEX]	ER = Error register [HEX]	ST = Status register [HEX]Powered_Up_Time is measured from power on, and printed asDDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,SS=sec, and sss=millisec. It "wraps" after 49.710 days.Error 26143 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)  When the command that caused the error occurred, the device was active or idle.  After command completion occurred, registers were:  ER ST SC SN CL CH DH  -- -- -- -- -- -- --  04 61 02 00 00 00 a0  Device Fault; Error: ABRT  Commands leading to the command that caused the error were:  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name  -- -- -- -- -- -- -- --  ----------------  --------------------  ef 10 02 00 00 00 a0 00      03:58:36.742  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.741  IDENTIFY DEVICE  ef 03 46 00 00 00 a0 00      03:58:36.741  SET FEATURES [Set transfer mode]  ef 10 02 00 00 00 a0 00      03:58:36.741  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.741  IDENTIFY DEVICEError 26142 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)  When the command that caused the error occurred, the device was active or idle.  After command completion occurred, registers were:  ER ST SC SN CL CH DH  -- -- -- -- -- -- --  04 61 46 00 00 00 a0  Device Fault; Error: ABRT  Commands leading to the command that caused the error were:  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name  -- -- -- -- -- -- -- --  ----------------  --------------------  ef 03 46 00 00 00 a0 00      03:58:36.741  SET FEATURES [Set transfer mode]  ef 10 02 00 00 00 a0 00      03:58:36.741  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.741  IDENTIFY DEVICE  c8 00 08 00 00 00 e0 00      03:58:36.740  READ DMA  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]Error 26141 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)  When the command that caused the error occurred, the device was active or idle.  After command completion occurred, registers were:  ER ST SC SN CL CH DH  -- -- -- -- -- -- --  04 61 02 00 00 00 a0  Device Fault; Error: ABRT  Commands leading to the command that caused the error were:  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name  -- -- -- -- -- -- -- --  ----------------  --------------------  ef 10 02 00 00 00 a0 00      03:58:36.741  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.741  IDENTIFY DEVICE  c8 00 08 00 00 00 e0 00      03:58:36.740  READ DMA  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.740  IDENTIFY DEVICEError 26140 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)  When the command that caused the error occurred, the device was active or idle.  After command completion occurred, registers were:  ER ST SC SN CL CH DH  -- -- -- -- -- -- --  04 61 08 00 00 00 e0  Device Fault; Error: ABRT 8 sectors at LBA = 0x00000000 = 0  Commands leading to the command that caused the error were:  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name  -- -- -- -- -- -- -- --  ----------------  --------------------  c8 00 08 00 00 00 e0 00      03:58:36.740  READ DMA  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.740  IDENTIFY DEVICE  ef 03 46 00 00 00 a0 00      03:58:36.740  SET FEATURES [Set transfer mode]  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]Error 26139 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)  When the command that caused the error occurred, the device was active or idle.  After command completion occurred, registers were:  ER ST SC SN CL CH DH  -- -- -- -- -- -- --  04 61 02 00 00 00 a0  Device Fault; Error: ABRT  Commands leading to the command that caused the error were:  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name  -- -- -- -- -- -- -- --  ----------------  --------------------  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.740  IDENTIFY DEVICE  ef 03 46 00 00 00 a0 00      03:58:36.740  SET FEATURES [Set transfer mode]  ef 10 02 00 00 00 a0 00      03:58:36.740  SET FEATURES [Enable SATA feature]  ec 00 00 00 00 00 a0 00      03:58:36.738  IDENTIFY DEVICESMART Self-test log structure revision number 1Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error# 1  Short offline       Completed without error       00%      1998         -SMART Selective self-test log data structure revision number 1 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS    1        0        0  Not_testing    2        0        0  Not_testing    3        0        0  Not_testing    4        0        0  Not_testing    5        0        0  Not_testingSelective self-test flags (0x0):  After scanning selected spans, do NOT read-scan remainder of disk.If Selective self-test is pending on power-up, resume after 0 minute delay.

Merci par avance 


Configuration: Asus P8Z68-V/GEN3 + Intel Core i2700k + RAM G-Skill 4x4Go PC 12800 + Gainward Geforce GTX 560 - 2 Go + Western Digital Velociraptor 300 Go (Mageia / Fedora / Debian / Manjaro / Windows 7) + Seagate Barracuda 7200t/mn - 2 To - Sata 3 (data) + SSD Samsung 64 Go - Sata 3 (Mageia)

Claude Lachance · Answer

Bonjour Sieur Teutates qu'on voit bien peu ici de nos jours

Ne serait-ce pas simplement un problème de surchauffe dû à une accumulation de poussière, au mauvais fonctionnement d'un ventilateur voire à l'érosion de la pâte thermique ?  Le fait que ça se produise lors d'activités un peu lourdes m'inviterais à vérifier d'abord cela, avant de m'attaquer aux disques ou à la mémoire-vive !

Cordialement !

teutates · Answer

J'ai dépoussiéré, par acquis de conscience, avant de démarrer ce soir. Pas de mouton de poussière présent même s'il y aura toujours un minimum de poussière malheureusement. Mais aucun amas repéré. Et quand je parle de dépoussiérage, c'est évidement toutes les parties, y compris les recoins. Les disques durs, comme la mémoire RAM comme la carte vidéo, l'alimentation, la carte mère, le CPU et sa ventilation, jusqu'aux ouïes d'extraction. Bref, tout.

Un redémarrage nickel.

Cependant, en rouvrant gsmartcontrol depuis Mageia 5, toujours sur ce même disque SATA, je relève l'erreur suivante :
ATA Error Count: 26143 (Note: Usually only the last five errors are stored.)

Et en dessous une indication plus complète :
Complete error log:SMART Error Log Version: 1ATA Error Count: 26143 (device log contains only the most recent five errors)	CR = Command Register [HEX]	FR = Features Register [HEX]	SC = Sector Count Register [HEX]	SN = Sector Number Register [HEX]	CL = Cylinder Low Register [HEX]	CH = Cylinder High Register [HEX]	DH = Device/Head Register [HEX]	DC = Device Command Register [HEX]	ER = Error register [HEX]	ST = Status register [HEX]Powered_Up_Time is measured from power on, and printed asDDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Cette indication est-elle plus claire que l'obscur fichier texte ?
 
Toco y se gausos !!!

teutates · Answer

A priori, le disque se dégrade et des secteurs deviennent défectueux. J'avais lancé un sujet parallèle sur Assembler-PC :
https://forum.assembler-pc.fr//troubleshooting/probleme-disque-dur-aleatoire/

pmloikju me suggère de désactiver les blocs problématiques selon la procédure suivante :
1) Démarrer sur LiveCD (pour éviter que les disques soient montés).
2) Détecter le blocks défectueux et les mettre dans un fichier.
badblocks -v /dev/sda > deadblock.dump
3) Les désactiver:
e2fsck -l deadblock.dump /dev/sda

Je termine ma sauvegarde sur un autre disque dur puis je lancerai l'opération.

Bien qu'il faudrait aussi que je vérifie du côté de la garantie du disque dur.

noctambule28 · Answer

Bonsoir, M_Teutates_le revoila

Ca pourrait être très intéressant de savoir comment se passe les garanties de disque.
Je voudrais réagir sur une chose : tu fais des fsck sur ton SSD aussi ? Quand j'en ai installé un, j'ai cru comprendre que c'était une chose à ne pas faire (mais c'est un peu HS).

Quant à des(un) disques qui lachent, surprenant pour des dd de "musiques/vidéo". (sauf s'ils ont servi avant).

Tu as essayé ta config avec un DD en moins  (sans retirer celui qui semble poser pb) ?
Tu as passé testdisk sur ton dd ? (c'est un champion pour te dire ce qu'il pense du dd)

Tu as beau temps dans le sud  ?
;-)

teutates · Answer

Du neuf.

1) J'ai fini ma récupération de données sur un disque dur Seagate Barracuda 2 To que je gardais en réserve. Je l'ai vérifié auparavant avec gsmartcontrol et il est sain.

2) J'ai démonté le WD Green à problème pour le remplacer par le Seagate Barracuda.

3) Comme ce disque est automonté systématiquement dans tous mes systèmes principal (Mageia 5) et alternatifs (Fedora 22, Debian 8 et Manjaro (que j'ai foiré)), j'ai démarré sur PartedMagic pour modifier chaque fstab afin de modifier la valeur UUID par celle du nouveau disque.

4) J'ai démarré (correctement) sur Mageia et j'ai lancé l'opération pour détecter les blocks défectueux et les mettre dans un fichier. A savoir (sous root) :
badblocks -v /dev/sdh > deadblock.dump
Par contre, avec un disque de 2 To, l'opération s'avère vachement longue. Voilà 2h30 qu'elle est lancée et pas achevée. Si elle n'est pas terminée ce soir, je devrais abandonner pour relancer l'opération ce samedi.

5) La garantie ? Le disque est garanti 2 ans et je l'ai acheté (chez Materiel.net) le 19/09/2013. Je viens donc de contacter le fabricant pour faire jouer immédiatement cette garantie. A noter que c'est Materiel.net qui renvoie sur WesternDigital. Le système est simple. Une inscription gratuite sur le site WD. On entre le numéro de série du disque pour vérifier la validité de la garantie. Et puisqu'il me reste (ce soir) 72 jours de garantie, je valide un retour RMA avec comme cause l'erreur SMART. Dès qu'ils auront reçu le disque, ils m'en enverront un autre.
 
Toco y se gausos !!!

teutates · Answer

Du nouveau :

1) J'ai renvoyé au fabricant le disque dur ayant des erreurs SMART.

2) Ce disque dur problématique (SDE1) a été remplacé par un autre. Il va de soi que j'ai auparavant vérifié l'état du nouveau disque et ses données SMART sont excellentes.

3) La machine a démarré correctement plusieurs fois.

4) Pourtant, le démarrage s'est mal passé aujourd'hui ! 

 En effet, un contrôle fsck était obligatoire sur deux disques (SDD1 et SDF1) car ils ont été montés déjà 20 fois. 
 Donc, au démarrage de Mageia 5 (à jour), fsck se lance sur le premier disque dur et plante après, environ, 33% puis la machine s'éteint. 
 Je redémarre un nouvelle fois avec le même échec. A vrai dire, je m'y attendais mais j'espérais faire une photo de l'écran. Cependant, cette photo ne révèle rien : ni fichier journal, ni indication quelconque d'un problème.
 Je redémarre sur PartedMagic en mode LiveCD et je lance plusieurs contrôles :
-> contrôles fsck de toutes les partitions, y compris SDD1 et SDF1 : pas de problème
-> relevé de nouvelles données SMART (gsmartcontrol) : aucun problème

 Je redémarre sur memtest86 (sait-on jamais). Pas de problème .... bien que vue la longueur de l'opération je ne sois pas allé au bout. Et à vrai dire, je compte relancer ce test un matin (à cause de sa durée) mais quand il fera (si possible) un peu moins chaud.

En résumé :

 La tour est propre, sans poussière, partout.
 Le problème ne survient que lorsqu'il faut lancer le contrôle fsck depuis le système d'exploitation.
 Ce même problème n'apparait pas lorsque le contrôle fsck est lancé en mode LiveCD depuis PartedMagic.

Une piste à suivre : démarrer plusieurs fois Debian 8 jusqu'à obtenir la nécessité du contrôle fsck dans le but de comparer.

teutates · Answer

Je confirme le bug du côté de Mageia.

Pour rappel, mon système est multi-boot :

 SDA2 : Mageia 5 Cauldron (version instable de développement)
 SDA3 : Fedora 22
 SDA5 : Debian 8.1
 SDB1 : Mageia 5 (version stable - système principal)

Je précise aussi que, quel que soit le système démarré, ce sont systématiquement les mêmes partitions qui sont montées. Par conséquent, chaque démarrage d'un quelconque système incrémente le compteur fsck à l'identique.

Si le contrôle fsck se fait sous Mageia 5 (lorsque programmé), c'est le plantage assuré. Actuellement, le résultat est le même avec Mageia 5 SDB1 (SSD) et Mageia 5 Cauldron (SDA2 - Velociraptor) puisque les deux versions sont encore identiques.

Par contre, aucun problème avec le même contrôle fsck sous Debian et Fedora.

J'en suis à pister le moment où un nouveau contrôle fsck devra être effectué pour démarrer sur Debian ou Fedora. Et j'attends aussi la montée en développement de Cauldron pour tester de ce côté.

teutates · Answer

Du nouveau :

Pour information, j'ai été amené à installer dernièrement une version minimale de Mageia 5 pour régler un autre problème. Ce matin, nouveau contrôle fsck obligatoire. Je redémarre donc sur cette toute fraîche installation Mageia 5 minimale qui me débute le contrôle fsck puis ..... plante comme les autres installations Mageia 5 plus ancienne et complète.

Je rappelle que, même si ces contrôle fsck portent sur de grandes partitions (2 To, ce qui est long à traiter), ce même contrôle ne pose strictement aucun problème avec Debian 8.2 et Fedora 22. Ca bugge chez Mageia ?!

Probleme disque dur aléatoire

8 réponses

Discussions similaires

Newsletters