> DIO/ Actualités/ Panne serveur du site de Meudon du 17/09/2023

Contexte

Nous avons une panne sur un hyperviseur (serveur physique qui fait tourner plein de serveurs virtuels).

Le premier diagnostic semble être un problème de carte mère, survenu le

Dimanche 17 septembre vers 15h00

Instabilité du serveur au redémarrage malgré de multiples essais à distance. Quelques services critiques ont été déjà migrés sur une autre machine.

Services impactés

Le tableau ci-dessous liste les machines virtuelles et les services impactés ainsi qu'un éventuel contournement temporaire.

Nom machine Service impacté Contournement
adonis.obspm.fr pas d'impact pour les utilisateurs
dhcp-m1.obspm.fr pas d'impact pour les utilisateurs
ganglia.obspm.fr pas d'impact pour les utilisateurs
houdart2.obspm.fr pas d'impact pour les utilisateurs
heuclin2.obspm.fr pas d'impact pour les utilisateurs
jamf.obspm.fr pas d'impact pour les utilisateurs
jetons.obspm.fr IDL inutilisable sur les tychos impossible
ldap2-m1.obspm.fr ralentissement ou impossibilité de s'authentifier sur certains services dans votre configuration, remplacer par ldaps-m2.obspm.fr
loghost-m.obspm.fr pas d'impact pour les utilisateurs
mdbook.obspm.fr service du même nom d'édition de markdown impossible
ns2-m.obspm.fr pas d'impact pour les utilisateurs
nsi2-b-m.obspm.fr accès réseau ralenti sur le site de Meudon
onlyoffice.obspm.fr service d'édition de documents MSOffice lié au service share (NextCloud) impossible
share.obspm.fr service du même nom de partage de documents impossible
proxy-m.obspm.fr service du même nom de proxy web dans votre configuration, remplacer par proxy-p.obspm.fr
racktable.obspm.fr pas d'impact pour les utilisateurs
radius-m.obspm.fr Service Eduroam indisponible à Meudon impossible
radius-int-m.obspm.fr pas d'impact pour les utilisateurs
sionet.obspm.fr pas d'impact pour les utilisateurs
smtp-int-m.obspm.fr Impossibilité d'envoyer du mail avec ce serveur dans votre configuration, remplacer par smtp-int-p.obspm.fr
voparis-tap-he.obspm.fr pas d'impact pour les utilisateurs
webcias.obspm.fr site web CIAS impossible

Dernière minute

Remise en route progressive dans l'après midi par transfert sur une autre machine (Délais accru dû à une autre panne de disque sur le serveur de sauvegarde)

Nom machine Remis en route
adonis.obspm.fr 05/10/2023 19h00
dhcp-m1.obspm.fr 05/10/2023 19h00
ganglia.obspm.fr 05/10/2023 19h00
houdard2.obspm.fr 18/09/2023 17h00
heuclin2.obspm.fr 18/09/2023 17h00
jamf.obspm.fr 05/10/2023 19h00
jetons.obspm.fr 18/09/2023 17h45
ldap2-m1.obspm.fr 18/09/2023 17h30
loghost-m.obspm.fr 18/09/2023 18h00
mdbook.obspm.fr 18/09/2023 18h00
ns2-m.obspm.fr 05/10/2023 19h00
nsi2-b-m.obspm.fr 18/09/2023 17h00
onlyoffice.obspm.fr 18/09/2023 17h30
share.obspm.fr 18/09/2023 17h30
proxy-m.obspm.fr 05/10/2023 19h00
racktables.obspm.fr 05/10/2023 19h00
radius-m.obspm.fr 18/09/2023 17h00
radius-int-m.obspm.fr 05/10/2023 19h00
sionet.obspm.fr 18/09/2023 17h00
smtp-int-m.obspm.fr 18/09/2023 17h30
voparis-tap-he.obspm.fr 05/10/2023 19h00
webcias.obspm.fr 05/10/2023 19h00
admsidb.obspm.fr 05/10/2023 19h00
clubastro.obspm.fr 05/10/2023 19h00
diosas-m.obspm.fr 05/10/2023 19h00
piwigo.obspm.fr 05/10/2023 19h00
sirh-formation.obspm.fr 05/10/2023 19h00

Évolutions

Date Opérations
18 septembre Appel du SAV de Dell pour intervention.
19-20 septembre «discussions»/tests avec le SAV de Dell pour savoir quelle pièce changer
21 septembre Changement de la carte mère du serveur.
22 septembre Test de la nouvelle carte, conclusion problème toujours présent.
25-26 septembre Tests selon les recommandations de Dell, problème toujours présent.
26 - 29 septembre Escalade auprès de Dell vers le niveau 3,
2 octobre Toujours pas de nouvelle de Dell
3 octobre Approbation par Dell de remplacer un processeur, intervention prévue mercredi 4/10
4 octobre Pièces reçues mais intervention reportée au lendemain 05/10
5 octobre Intervention Dell effectuée, tests OK, serveur remis en production à 19h