> DIO/ Actualités/ Perturbations du réseau RAP vers Jussieu depuis mi-novembre 2017

Mardi 21/11/2017

Depuis environ le 12/11/2017, la connexion du campus de Paris (Observatoire, IAP) au réseau MAN RAP, opéré par Renater, fonctionne en mode dégradé avec des lenteurs.

Un ticket ticket chez Renater est ouvert depuis le 16/11, jeudi dernier.

Après appel au NOC Renater pour avoir plus de précisions, il y a un souci sur une interface de l'équipement à Jussieu qui nous raccorde. Nous sommes actuellement sur la liaison de secours, qui en principe a la capacité de nous redonner une liaison normale. Nous n'avons pas eu d'explication sur les raisons de la lenteur toujours observée, mais une maintenance est prévue ce soir à Jussieu.

Le ticket de cette maintenance peut être vu sur le récapitulatif des tickets de maintenance de Renater.

En bref, il nous faut être patients jusqu'à cette maintenance qui devrait ramener la situation à l'état normal.

Mercredi 22/11/2017

La maintenance Renater d'hier soir à Jussieu a un peu amélioré les choses pour le débit mais celui-ci reste anormalement bas. Nous observons toujours des bagots et avons l'impression qu'il y a des pertes de paquets.

Nous ouvrons donc un ticket incident Renater spécifique pour le site RAP Observatoire de Paris/IAP et tentons de leur donner le maximum de matière (tests divers) pour les aider à identifier et localiser le souci.

À suivre.

Jeudi 23/11/2017

Suite des investigations par Renater, sans succès.

Vendredi 24/11/2017

Suite des investigations par la DIO côté Observatoire, pour écarter l'hypothèse d'un problème interne. Demande de la DIO à Renater à passer de la liaison principale (vers Jussieu) sur la liaison de secours (vers Odéon). On constate alors un retour à un débit normal.

Décision prise de changer la configuration pour que la liaison principale soit celle vers Odéon, en gardant la liaison vers Jussieu, certes dysfonctionnelle pour l'instant, en secours. Ceci plutôt que de prendre le risque de n'avoir qu'une seule liaison.

Depuis aujourd'hui 16:45, nous sommes sur la liaison de secours avec un débit revenu à la normale, soit 1 Gb/s.

Il faut maintenant vérifier les différents composants de la chaîne de liaison entre le routeur RAP de Jussieu et le routeur de l'Observatoire. Mais ceci devrait se faire sans impact pour les utilisateurs.

Lundi 27/11/2017

Suite des investigations, fourniture des éléments sur le matériel Renater qui se trouve à l'Observatoire pour un test d'échange standard.

Vendredi 01/12/2017

Intervention du prestataire de Renater pour un ensemble de tests :

Opération effectuée le vendredi 01/12 à partir de 14 h :

  • nettoyage jarretière optique en amont du MRV -> pas mieux

  • changement de cette même jarretière -> pas mieux

  • changement du SFP WDM bidir -> pas mieux

  • changement de la carte d'interfaces du MRV -> pas mieux

  • changement du boîtier du MRV (fond de panier, alim, etc.) -> pas mieux

Par la DIO sur notre routeur

  • changement de l'arrivée Jussieu du port ge-1/0/0 vers ge-1/0/5 -> pas mieux

Fin de l'opération vers 17h15.

Lundi 04/12/2017

Suite des investigations par le NOC Renater.

Mardi 05/12/2017

Par acquis de conscience, changement par la DIO du cordon cuivre entre le convertisseur fibre/cuivre Renater et le routeur Observatoire : pas mieux.

À ce stade, tous les éléments matériels qui pouvaient être changés côté Observatoire l'ont été.

Modification de la configuration logicielle du convertisseur par le NOC Renater : pas mieux.

Jeudi 14/12/2017

Test de changement de port (sur une autre carte) sur le routeur RAP Jussieu : cela semble mieux. Décision de rester avec le lien préférentiel vers Jussieu pour une période d'observation de 24 h.

Vendredi 15/12/2017

Après pile 24 h d'observation, la liaison Jussieu montre de fortes dégradations.

Tentatives sans succès de faire des tests en mettant directement un PC de la DIO sur le convertisseur du lien Jussieu, en prenant l'adresse du routeur de l'interface face à Jussieu. Sans succès, probablement à cause de filtrage par RAP sur les adresses IP d'interconnexion, qui n'ont pas à faire de trafic avec d'autres machines que le routeur d'en face.

Lundi 18/12/2017

Suite des investigations par le NOC Renater. Décision de tester le dernier maillon de la chaîne physique de liaison : le convertisseur fibre/cuivre du POP Jussieu.

Jeudi 21/12/2017

Intervention au POP Jussieu du prestataire :

  • nettoyage jarretière optique en amont du MRV -> pas mieux

  • changement simultané de la carte interface et du SFP WDM bidir -> pas mieux, mais souci subtil de différence de révision mineure du matériel qui fait que l'interface ne monte pas

  • retour arrière avec remontage de l'ancienne carte, mais en conservant le nouveau SFP -> pas mieux

  • on ne constate aucune accumulation d'erreur sur les compteurs, aussi bien sur les routeurs que sur les convertisseurs.

Vendredi 22/12/2017

Suite des investigations du NOC.

Entre 16:30 et 17:00, gros risque de perturbations. En effet, sur RAP, le trafic de l'Observatoire qui va vers le POP Odéon sera rerouté vers le POP Jussieu, la liaison qui pose problème. Ceci pour tenter de circonscrire un peu plus le problème.

Le point négatif, c'est qu'il y a de fortes chances que le trafic soit perturbé pendant cette plage horaire. C'est justement ce que l'on souhaite observer pour tenter d'identifier le problème.

La conclusion de ce test : le problème semble bien être situé entre le routeur de l'Observatoire et le POP RAP Jussieu.

Lundi 08/01/2018

Tests avec un PC DIO à la place de l'interface du routeur vers Jussieu. Échec. On se renseigne pour voir s'il y a du filtrage sur RAP, et c'est bien le cas. Il faut donc adapter le protocole de test.

Mardi 09/01/2018

Tests avec un PC DIO à la place de l'interface du routeur vers Jussieu. Tests iperf et speedtest.net. Il apparaît de façon flagrante un effondrement du trafic. Cela dédouane le routeur de l'Observatoire. Piste : changer la carte MRV côté POP RAP Jussieu (en prenant bien soin de vérifier la révision hardware mineure).

Vendredi 12/01/2018

Test iperf avec Renater. Entre Meudon et POP RAP Jussieu et Odéon. Rien n'a été mis en évidence par ces tests.

Lundi 15/01/2018

Constat d'un souci dans la supervision Observatoire. Corrélation par Renater : MRV visiblement complètement bloqué. Même le ping entre le routeur de Jussieu et le routeur de l'Observatoire ne passait pas, alors que l'interface est UP. Reset cold du MRV, et c'est reparti.

À l'Observatoire, à la demande de Renater, sur le MRV vers Jussieu : débranchement, attente 1' le temps de bien vider tous les condensateurs, rebranchement.

Piste : est-ce que le signal de métrologie REFIMEVE pourrait amener des perturbations ? Après investigation, les OADM ont été insérés dans les chemins optiques seulement après l'apparition du problème, qui existait donc avant.

Mardi 16/01/2018

Effondrement total du trafic Jussieu entre 16:07 et 16:12. Aucune corrélation par Renater avec quelque autre évènement. Confirmation que le changement de carte MRV côté Jussieu s'impose avant d'aller plus loin.

Vendredi 26/01/2018

Changement de carte, mais qui malheureusement ne change rien. Constat d'un trafic anormalement faible, et effondrement du débit vers 13:30. Rebascule du trafic vers Odéon à 13:45 pour remettre le service.

Comme tous les composants matériels qui forment la chaîne de liaison ont été changés, il faut instrumenter et faire tourner des tests sur plusieurs jours pour tenter de faire des corrélations.

Lundi 29/01/2018

Observation : quelques erreurs dans les logs du MRV.

Mardi 30/01/2018

Renater propose de mettre directement des SFP bidirectionnels dans les routeurs afin de court-circuiter la chaîne de conversion MRV. Planification de l'opération pour le mardi 6/02, puis report au vendredi 09/02 pour des contraintes d'emploi du temps.

Vendredi 09/02/2018

Échec de l'opération car le SFP TX à retirer côté POP RAP est coincé dans son logement et le retirer en force serait une opération jugée trop risquée pour le port et les ports voisins (potentiellement plusieurs milliers d'utilisateurs derrière chaque port).

Mercredi 14/02/2018

Décision d'installer un serveur iperf à demeure côté Observatoire pour se subsituer à l'interface du routeur vers Jussieu et faire des tests de longue durée sur plusieurs jours et tenter de collecter et corréler des évènements.

Jeudi 15/02/2018

Le serveur iperf est en place

Vendredi 16/02/2018

Lors des premiers tests du serveurs, constat qu'il y a un nombre énorme de perte de paquets ICMP sur la liaison. Le test iperf est impossible dans ces conditions. Décision de Renater de déclencher une réflectométrie.

Lundi 19/02/2018

En parallèle, demande à REFIMEVE s'ils observent des soucis (affaiblissement ou autre) sur la liaison optique vers Jussieu.

À suivre,