À 3h ce matin l'origine du problème a été identifiée. Un disque défectueux qui ne renvoyait pas d'erreur. C'est une analyse de vitesse qui a permis de trouver. Retour à la normale en cours. Certaines opérations pourront prendre du temps. Merci encore de votre patience et de vos messages.

@zaclys
chez  @Octopuce on teste nos disques (via hdparm -t) 3 fois par jour, on garde la meilleure valeur des 3, et on stocke ça.
Si le disque, sur le temps long, a sa valeur qui baisse trop, on remonte ça dans la supervision.

our 2 cents ;)

@vincib @Octopuce Merci beaucoup, je transmets ce message à l'équipe technique.

Belle journée à vous @Octopuce

@zaclys @vincib @Octopuce J'utilise un petit script pour mettre en valeur 3 paramètres remontées par smartmontools

des disques
for i in /dev/sd[a-z] ; do echo "==== DISQUE $i ====" >> $LOG; smartctl -iA $i >> $LOG; done;

utilisateur
cat $LOG | grep -E --color "^( 5|187|188|197|198| State).*|" ;

les métriques 5, 187, 188, 197, 198 sont celles qui ont été identifiées comme à surveiller par Blackblaze sur les disques qui deviennent défaillants

Suivre

@zaclys @vincib @Octopuce Blackblaze est une société de stockage qui a une telle flotte de disques qu'elle établit des statistiques de défaillance publiés annuellement.
backblaze.com/b2/hard-drive-te

Pour info, sur un modeste raid de 4 disques, celui qui a crashé avait ces compteurs qui augmentaient.

· · Web · 1 · 0 · 0

@Troupier @vincib @Octopuce Retour de l'équipe : "Merci, nous avons bien une surveillance smart mais tout était en vert.
Nous allons mettre en place des surveillances sur le défaut rencontré mais qu'il y a de fortes chances que le prochain soit tout autre. On se tient prêts face à l’adversité :D

Merci à vous

Inscrivez-vous pour prendre part à la conversation
Framapiaf

Le réseau social de l'avenir : pas de publicité, pas de surveillance institutionnelle, conception éthique et décentralisation ! Gardez le contrôle de vos données avec Mastodon !