CenturyLink responsabilizada de masiva interrupción sufrida Cloudflare

31/08/2020

425 4 minutos de lectura

Cloudflare sufrió una interrupción masiva el domingo por la mañana que duró casi cinco horas para algunos clientes. En una publicación de blog el mismo día por la noche, el CEO de Cloudflare, Matthew Prince, culpó a CenturyLink, empresa que experimentó una falla simultánea en toda la red.

La causa de la interrupción de CenturyLink sigue sin estar clara, pero lo que se sabe es a las 6:03 a.m. (EST), los sistemas de monitoreo de Cloudflare observaron un importante aumento en la cantidad de errores. Según Prince, estos indicaron que había un problema con la conexión entre la red de Cloudflare y el lugar donde se alojaban las aplicaciones del cliente.

Estos errores se identificaron como originados en la red de CenturyLink, y los sistemas automatizados de Cloudflare intentaron redirigir el tráfico a proveedores de red alternativos, incluidos Cogent, NTT, GTT, Telia y Tata. Para muchos clientes de Cloudflare, la interrupción se resolvió en menos de 10 minutos, ya que la empresa reequilibró el tráfico en sus otras redes de socios.

"Nuestros sistemas automatizados se activaron de inmediato para intentar redirigir y reequilibrar el tráfico a través de proveedores de red alternativos, lo que provocó que los errores se redujeran a la mitad inmediatamente y luego cayeran a aproximadamente el 25% desde el pico, ya que esas rutas se optimizaron automáticamente", escribió Prince.

Efectos persistentes

Prince señaló que debido al tamaño de la red de CenturyLink, que es una las más grandes del mundo, era imposible resolver el problema para todos los clientes sin la intervención de los operadores de red.

"Muchos proveedores de alojamiento solo tienen conectividad de un solo hogar a Internet a través de su red [que normalmente es de CenturyLink]", escribió. "Usar la antigua Internet como una analogía de 'superautopista' es como tener una única salida a una ciudad. Si la rampa de salida está bloqueada, no hay forma de llegar a la ciudad ".

Para empeorar las cosas, Cloudflare informa que la red de CenturyLink no estaba respetando las instrucciones de retiros de rutas, agregó Prince. Esto significaba que, si bien Cloudflare había desactivado automáticamente la red de CenturyLink en 48 ciudades, el operador de red se mantenía intentando enviar tráfico hacia y desde Cloudflare.

"En el caso de los clientes cuya única conectividad a Internet es a través de CenturyLink / Level3, o si CenturyLink continuaba anunciando rutas incorrectas después de haber sido retiradas, no había forma de que pudiéramos llegar a su aplicaciones y continuamps sufriendo errores hasta que CenturyLink resolvió el problema alrededor de las 10:30 am EST".

Sin embargo, debe tenerse en cuenta que Cloudflare no marcó el problema como resuelto hasta las 12:12 p.m. EST, el mismo domingo.

¿Que pasó?

No está claro qué sucedió con la red de CenturyLink para causar la interrupción. En un correo electrónico a SDxCentral, CenturyLink proporcionó pocos detalles con respecto a la causa de la interrupción. Un portavoz del operador de red simplemente declaró que "el 30 de agosto, los clientes de varios mercados globales se vieron afectados por una interrupción de IP en la red. Todos los servicios han sido restaurados ".

En la publicación del blog de Cloudflare, Prince especuló sobre la causa de la interrupción. Escribió que Cloudflare observó un gran aumento en las actualizaciones del protocolo de puerta de enlace fronteriza (BGP) en la red de CenturyLink en el momento de la interrupción inicial.

Esto fue respaldado por una actualización proporcionada por CenturyLink que indicaba que una regla de especificación de flujo incorrecta, que se usa para distribuir reglas de firewall usando BGP, puede haber causado el problema.

"Flowspec es una herramienta poderosa", escribió Prince. "Es genial cuando intentas responder rápidamente a algo como un ataque, pero puede ser peligroso si cometes un error".

Prince agregó que después de que Cloudflare experimentó una interrupción de la especificación de flujo hace unos siete años, la compañía dejó de usar el comando debido a la posibilidad de grandes interrupciones de la red.

"Solo podemos especular sobre lo que sucedió en CenturyLink, pero un escenario plausible es que emitieron un comando de flowpec para intentar publicar un ataque u otro abuso dirigido a su red en el blog", escribió.

Prince especuló además que un comando de especificación de flujo incorrecto al final de la cola de BGP podría haber causado un bucle que agotó la memoria del enrutador y abrumó la CPU del enrutador. Esto, agregó, habría dificultado que CenturyLink tuviera acceso a los enrutadores y corrigiera el problema.

Sin embargo, Prince agrega que existe una clara posibilidad de que la interrupción no haya sido causada por CenturyLink, sino por uno de sus clientes.

Escribió que si un cliente intermedio hubiera utilizado una regla de especificación de flujo fallida para bloquear un ataque, podría haber causado la cascada que derribó la red de CenturyLink.

Encuentre la información completa sobre esta noticia en el reporte de Tobias Mann en sdxcentral.com.

NdE

Las dificultades que ha venido experimentando CenturyLink la última semana no solo afectaron a grandes proveedores de hosting, servicios en la nube y suministro de contenidos como Cloudflare…

Durante los días previos hasta el mismo domingo 30 de agosto, muchos y variados proveedores de internet (ISP y de otro tipo) reportaron a sus clientes sobre dificultades de conectividad a diversos servicios en línea.

Estos avisos incluían mensajes con detalles como "nuestro principal proveedor de acceso a internet global (CenturyLink) nuevamente presenta una falla general que afecta en nuestro caso a servicios web con contenido multimedia, entre los afectados destacan NETFLIX; AMAZON PRIME, DISNEY+, ZOOM, MERCADO LIBRE, conexión a AMAZON FIRE STICK, entre otros.

Fuente: THP/sdxcentral.com

31/08/2020

425 4 minutos de lectura