Interrupção do Facebook causada por um único erro; tem grandes implicações

A interrupção do Facebook de ontem - que derrubou o Facebook Messenger, Instagram e WhatsApp , bem como o serviço principal - resultou de um erro dos próprios engenheiros de rede da empresa.

O erro fez com que todos os serviços do Facebook ficassem inacessíveis, com uma analogia comparando-o a uma falha nos serviços de “controle de tráfego aéreo” para tráfego de rede ...

Aos poucos, pareceu que o problema poderia estar relacionado ao DNS - os servidores de nome de domínio que informam aos dispositivos quais endereços IP usar para acessar os serviços - mas não estava claro o que exatamente havia acontecido e se era um hack externo, ação mal-intencionada de um insider, ou um erro catastrófico.

O Facebook agora admitiu em um blog que foi um erro.

Nossas equipes de engenharia aprenderam que as alterações de configuração nos roteadores de backbone que coordenam o tráfego de rede entre nossos data centers causaram problemas que interromperam essa comunicação. Essa interrupção no tráfego de rede teve um efeito cascata na maneira como nossos data centers se comunicam, interrompendo nossos serviços.

Demorou muito para resolver o problema porque os sistemas inacessíveis incluíam os servidores e as ferramentas que os engenheiros normalmente usariam para resolver o problema remotamente. Os relatórios sugerem que os funcionários de nível inferior tiveram que obter acesso físico aos data centers e, em seguida, confiar nas instruções passo a passo de engenheiros mais experientes para desfazer o erro. Para complicar ainda mais, a indisponibilidade das redes significava que os sistemas de acesso à porta do Facebook também estavam offline, impedindo fisicamente o acesso.

Como entender a interrupção do Facebook

Sem dúvida, teremos a história completa a tempo, mas a visão consensual emergente é que o problema era alguma combinação de configuração de servidor de nome de domínio (DNS) e protocolo de gateway de fronteira (BGP).

A melhor analogia que vi é pensar no tráfego de rede como se fosse um avião. Seu dispositivo deseja voar para o facebook.com. Seu avião precisa primeiro saber as coordenadas GPS do aeroporto de destino, ou seja, o endereço IP ao qual ele deve se conectar. Ele obtém essas informações solicitando um DNS, que informa que facebook.com está localizado em (por exemplo) 66.220.144.0.

Mas chegar ao destino final - o servidor real que pode executar a tarefa que você deseja fazer - depende de uma espécie de sistema de controle de tráfego aéreo para o tráfego de rede, que é o BGP. O BGP informa ao seu dispositivo qual rota voar através dos vários servidores a caminho do seu destino final.

Parece que o Facebook perdeu completamente seus sistemas BGP - então não havia como o Facebook dizer aos dispositivos como chegar ao seu destino. E isso incluiu os próprios engenheiros do Facebook alcançando os sistemas de que precisavam para desfazer o erro.

Além disso, uma fonte informada sugere que não houve nenhum problema com o DNS do Facebook em si, foi, ao invés da perda do BGP, que não havia maneira de acessar os servidores de nomes de domínio da empresa.

A interrupção tem implicações enormes

Se fossem apenas pessoas incapazes de postar vídeos de gatos por algumas horas, isso seria uma coisa (entretanto, qual é, o que é a vida sem vídeos de gatos?). Mas o WhatsApp é efetivamente uma peça crítica da infraestrutura de comunicação em muitos países, usada rotineiramente para comunicação entre pacientes e médicos, por exemplo, e usada por muitos para pagamentos.

A indisponibilidade prolongada chamou a atenção para o quão vulnerável o mundo inteiro é a falhas dessa natureza.

Por exemplo, milhões de pessoas dependem dos servidores DNS do Google para alcançar todos os servidores do planeta. Imagine esses servidores caindo por um longo período. Isso não afetaria apenas os consumidores, mas interromperia o comércio e a infraestrutura crítica. Produção fabril, transporte de frota, varejo ... as obras.

O mundo inteiro depende criticamente de um número relativamente pequeno de servidores, que podem ser colocados off-line por um erro como o que aconteceu aqui. É preciso pensar muito em como evitar uma interrupção muito mais significativa da Internet no futuro.

Foto: NASA

Ainda não tem seu link personalizado?


Clique no botão abaixo para criar seu link personalizado