> DIO/ Actualités/ Coupure de courant du site de Meudon du 13/01/2024

Contexte

Dans le cadre de l’entretien annuel des installations haute tension, une coupure générale de courant du site de Meudon est prévue le samedi 13 janvier de 8h à 17h.

En conséquence tous les services non critiques hébergés à Meudon seront coupés.

Tout ce qui se trouve dans le Mésocentre sera coupé dès le vendredi 12 janvier à 15h

Nous profiterons de cette coupure pour remplacer l'ATS dans le conteneur qui fonctionne en mode dégradé depuis la panne du 3 novembre.

Le reste des services ne pourra par ailleurs être maintenu que dans le cadre de l'autonomie du groupe électrogène.

Services impactés

Seront interrompus en particulier :

Tout le Mésocentre. La DIO arrêtera le vendredi 12 janvier à partir de 15h tous les services de calcul ainsi que tous les équipements et services dépendant du conteneur :

  • la grappe Tycho
  • la mésomachine MesoPSL
  • la machine de post-traitement Johannes

Services non impactés

Tous les services hébergés sur le site de Paris (messageries, sites web institutionnels, SIFAC, etc.) ne sont pas impactés.

Nous sommes désolés pour cette interruption de service nécessaire. Les services redémarreront si tout est fonctionnel le lundi en fin de matinée.

Dernière minute

  • le 15/01 à 11h35 : Le redémarrage prend plus de temps que prévu suite à la panne de 3 switchs et à la panne d'un transceiver sur le switch de coeur du conteneur.

Tycho est disponible partiellement, les noeuds suivants peuvent être utilisés dès maintenant :

tycho[05,06,07,09,10,11,12,13,14,15,16,17,18,20,21,22,23,24,27,28,53,54,55,56,59,60,61,62,71,72,73,74]

Les autres le seront dès qu'un des switchs sera remplacé, si tout se passe bien cet après-midi.

Johannes est disponible.

MesoPSL sera disponible en début d'après midi, une partie des noeuds ne sera disponible qu'après le remplacement des switchs, qui est prévu aussi cet après-midi.

  • le 15/01 à 17h25 : les 3 switchs ont finalement pu redémarrer après quelques heures. Le problème était vraissemblablement dû à la température basse au moment du redémarrage ce matin.

Les noeuds Tycho sont maintenant tous disponibles, la majorité des noeuds MesoPSL aussi.

Il reste un problème sur le stockage Loreli qui est partiellement accessible, un des serveur ne démarre pas pour le moment, et un problème d'accès au stockage noether qui reste à diagnostiquer.

  • le 16/01 à 11h05 : le support Dell a été contacté pour le problème d'accès au stockage noether et le support HP pour le problème de démarrage du serveur bee10 (stockage Loreli)

  • le 16/01 à 14h40 : Une procédure du support HPE a permis de corriger le problème de démarrage du serveur bee10. Le stockage Loreli est maintenant disponible à 100% .

  • le 19/01 à 16h25 : Le stockage Noether est toujours en maintenance. un rebuild est en cours sur les 3 pools de disques après intervention de Dell. Les 2 contrôleurs avaient perdu leur configuration réseau et 6 disques étaient dans l'état degraded. Le stockage devrait être à nouveau disponible en début de semaine prochaine.

Fin