Una noche movidita...

Escrito por el Miércoles, 15 de Junio 2016

Esta noche 5 miembros del equipo estábamos en alerta tras un mal despertar. Desde las 2h hasta las 4h de la mañana Greg / Pierre Lawrence / Dumè / Seb y yo estábamos en pie después de un incidente con el BGP.


Cuando el BGP falla

La particularidad principal de Internet es su capacidad para reconfigurarse a sí misma en caso de un fallo de conexión. Esta característica, heredada de los primeros días de la red militar, cuyo objeto es siempre funcional. Para lograr esto, cada router envía una lista de redes dentro de su alcance y de gestión con los que se comunica: este es el protocolo BGP (Border Gateway Protocol).

Martes / miércoles por la noche, nuestro proveedor de red OVH llevó a cabo un mantenimiento en nuestros routers que consistió en eliminar las reglas BGP obsoletas o inútiles. Gregory Giannoni explica:

"Los principales fallos de la red tienen mucho en común con las investigaciones policiales, es muy difícil conocer los detalles específicos antes de que el caso esté cerrado, pero vamos a decir que la limpieza de la configuración de nuestros routers era un poco demasiado profunda por lo que las líneas de computación dirigidas hacia nuestras redes fueron suprimidas, aislando nuestros servidores del resto del mundo ".

Pierre Laurent Medori, que todavía no ha podido recuperar la noche de sueño lo aprueba!

Nos llevó una hora, en medio de la noche, que el sistema volviera a estar operativo de nuevo en su mayor parte. Seguimos teniendo algunos problemas de conectividad, para algunos proveedores de servicios o países, pero no paramos de trabajar en ellos. 
Por ello, estamos en contacto constante con el soporte de housing  de nuestro proveedor.
 
 

Mantenimiento de esta mañana

Sí, para colmo esta mañana teníamos un mantenimiento programado de 7 a 10 horas GMT + 1, esto ha sido sólo una coincidencia. Tras el problema con el BGP hemos considerado aplazarlo para después, pero tras toda la preparación, lo teníamos que realizar de todos modos. En este caso, todo ha ido bien y el mantenimiento ha terminado a las 9:30h a.m.

Las dos operaciones son distintas: el mantenimiento no tenía nada que ver con el fallo, este se ha realizado con éxito. Para resumir la situación en la que nos encontramos podemos decir que es estable. Todavía estamos solucionando algunos fallos y tan pronto se resuelvan al 100% y todo vuelva  a la normalidad, os informaremos. 



Ingresa tu email