BGP, El protocolo que causo la caída de Facebook, WhatsApp e Instagram

BGP, El protocolo que causo la caída de Facebook, WhatsApp e Instagram

Este lunes 5 de Octubre del 2021, WhatsApp, Facebook e Instagram desaparecieron de Internet. Estos servicios estuvieron fuera de servicio durante más de seis horas, pero finalmente todo volvió a la normalidad.

¿Qué paso para que esto sucediera? ¿Fue un ataque? ¿Anonymous los ataco? ¿Es una conspiración? Muchas personas han especulado de lo que realmente paso, pero en Tecxpla hemos traído una recopilación de lo que paso.

Este enorme tiempo de inactividad se debió al llamado BGP o Border Gateway Protocol, uno de los sistemas utilizados en Internet para hacer llegar el tráfico a donde se necesita lo más rápidamente posible. ¿Cómo funciona BGP y cómo es posible que el tiempo de inactividad haya sido tan grave? Esto es lo que explicamos a continuación.

¿Qué es BGP y cómo funciona?

Como señala CloudFlare, este protocolo es un mecanismo de intercambio de información de enrutamiento entre los llamados sistemas autónomos (AS) de Internet.

Internet es una red de redes y hace uso de grandes routers que tienen enormes listas actualizadas de posibles rutas que pueden utilizarse para llevar un paquete de datos del origen al destino.

Con BGP, es posible que una red (como la de Facebook) haga saber a otras redes que está ahí, localizable, en Internet. El problema es que Facebook ya no avisaba al resto de redes y operadores de Internet: es como si hubiera desaparecido de esas listas y de ese «mapa».

Cada una de estas redes individuales (como la de Facebook o la de Cloudflare) tiene un ASN (Número de Sistema Autónomo), una red individual con un conjunto unificado e interno de reglas de enrutamiento de paquetes.

Cada número de sistema autónomo (AS) puede originar los llamados prefijos, que controlan un grupo de direcciones IP y los prefijos de tránsito que indican cómo llegar a grupos específicos de IP. Las ASN «anuncian» sus rutas prefijadas a través de BGP, y esto permite a otras redes saber cómo comunicarse con ellas.

Facebook dejó de anunciar sus rutas de servidor de nombres de dominio (DNS) con prefijos a las 16:58 UTC. Esto significaba que, aunque otras direcciones IP de Facebook siguieran enrutadas, no se podía acceder a ellas: no importaba que esa parte estuviera activa, porque el fallo de DNS las hacía inaccesibles.

En Cloudflare, supervisan las actualizaciones de BGP para poder actuar en consecuencia para sus servicios, y normalmente Facebook no hace casi ningún cambio. Sin embargo, a las 15:40 UTC notaron un pico de cambios de ruta que causó el verdadero problema en nuestros ordenadores y teléfonos móviles.

Este fallo hizo que los servicios que resuelven el DNS fallaran. Estos servicios, como ya hemos explicado, nos permiten saber que cuando escribimos por ejemplo «www.tecxpla.com» en el navegador, éste sabe que las peticiones deben ir a la máquina con la dirección IP 104.21.66.198.

Cuando Facebook dejó de anunciar su prefijo de enrutamiento DNS a través de BGP, los servicios de resolución DNS no tenían forma de conectarse a sus servidores de nombres: todos acabaron fallando, y esto provocó cada vez más efectos secundarios.

Entre otras cosas, hubo un aumento de solicitudes a sitios como Twitter, Signal y otras plataformas de mensajería como Telegram, algo que Cloudflare también notó, y de hecho hicieron una pequeña broma en Twitter diciendo «hola a todo el mundo, literalmente» porque en realidad muchos usuarios fueron a Twitter en busca de respuestas. Facebook también utilizó esta red para confirmar que tenía un problema técnico y que estaba intentando solucionarlo.

«Somos conscientes de que algunas personas están teniendo problemas para acceder a nuestras aplicaciones y productos. Estamos trabajando para que todo vuelva a la normalidad lo antes posible, y nos disculpamos por las molestias.»

Facebook en Twitter

Afortunadamente, Facebook pudo restablecer la situación a las 21:20 UTC: su actividad de BGP volvió a ser significativa alrededor de las 21:00 UTC, según CloudFlare, y alcanzó su punto máximo a las 21:17 UTC.

Esto dejó claro que Facebook volvía a anunciar todos sus prefijos de enrutamiento, lo que permitió restablecer el acceso normal a Facebook, WhatsApp e Instagram alrededor de las 21:28 UTC.

¿Qué dice Facebook sobre el problema?

Los ingenieros de Facebook también explicaron brevemente la causa del problema que les afectaba. Lo hicieron en su blog de ingeniería de Facebook.

Allí, primero se disculparon por las molestias que este problema haya podido causar a los usuarios. Según el post, el problema fue causado por lo siguiente:

«Cambios en la configuración de los routers troncales que coordinan el tráfico de red entre nuestros centros de datos. Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que nuestros centros de datos se comunican, provocando la interrupción de nuestros servicios».

No hubo más detalles, y Facebook quiso aclarar que en ningún momento el tiempo de inactividad se debió a un ciberataque:

«En este momento creemos que la causa principal del tiempo de inactividad fue un cambio de configuración erróneo».

Facebook

Facebook también aclaró que «no tenemos pruebas de que los datos de los usuarios se hayan visto comprometidos como resultado de esta interrupción del servicio».

JJR429

Hola, Soy JJR429, un apasionado por la programación y la tecnología, en este espacio estoy compartiendo todo sobre videojuegos, diseño, logos, aplicaciones, páginas web, seo y AI y más.

Deja una respuesta