Quando metade da internet cai: lições do apagão da Cloudflare e o poder de um bom postmortem

Na terça-feira o mundo digital levou mais um lembrete importante: a internet é muito mais frágil do que parece. Uma falha na Cloudflare derrubou, parcial ou totalmente, milhares de sites ao redor do planeta durante 6 horas. E não estamos falando de blogs pequenos. Entre as vítimas estavam:

ChatGPT

Claude

Canva

Dropbox

Spotify

Uber

Coinbase

Zoom

X (antigo Twitter)

Em outras palavras, grande parte do que usamos todos os dias.

Não é a primeira vez que isso acontece. Você deve lembrar que, num apagão recente, Elon Musk comentou que o Signal tem dependência direta da AWS. Se a AWS tropeça, o Signal apaga. E um desenvolvedor retrucou: no caso de X, a dependência crítica é a Cloudflare. Dias depois, a teoria se provou verdadeira.

Mas o mais impressionante não foi a queda. Foi o postmortem.

A Cloudflare publicou um relatório técnico, detalhado, transparente, praticamente cirúrgico sobre o que deu errado. E publicou tudo isso em menos de 24 horas. Para quem trabalha com tecnologia, é quase poesia.
Vamos destrinchar o caso e as lições que ficam.

O que aconteceu no apagão da Cloudflare

Poucas horas após conter o incêndio, Matthew Prince, CEO da Cloudflare, publicou um relatório completo explicando exatamente o que levou metade da internet ao chão.

A raiz do problema estava relacionada à propagação de um arquivo de configuração dentro do módulo de Bot Management. Esse arquivo acabou quebrando o módulo, e o módulo quebrou algo maior: o proxy. E se o proxy cai, cai o castelo inteiro.

Antes de entrar nos detalhes, vale lembrar o que esse proxy faz: ele protege os servidores de origem, filtra bot, bloqueia ataque, reduz tráfego e acelera a entrega de conteúdo. É a linha de defesa da Cloudflare.

E foi justamente essa linha que cedeu.

Como o efeito dominó começou

Tudo começou com algo aparentemente pequeno: uma alteração de permissão em um banco de dados ClickHouse.

Antes da mudança:

uma query de metadados retornava cerca de 60 features

essas 60 features alimentavam o módulo de Bot Management

tudo ok

Depois da mudança:

a mesma query passou a acessar outro banco

o número de features dobrava

o módulo de Bot Management não aceitava mais de 200

quando o sistema viu mais do que podia processar

ele simplesmente entrou em pânico

E não é metáfora. A Cloudflare mostrou o código. O problema aconteceu porque um trecho usava .unwrap() esperando que nada desse errado. Mas deu errado. E o sistema travou.

O caos silencioso da borda

As edge nodes da Cloudflare começaram a cair aos poucos.
Um lote de máquinas recebia a configuração boa, outro recebia a ruim.
As boas voltavam, as ruins morriam.
Parecia aleatório, mas não era. Era a pior combinação possível: falhas intermitentes que se propagam lentamente.

E por que a investigação demorou tanto?
Porque, para piorar tudo, a página de status da Cloudflare também caiu no início da crise.
Resultado: os engenheiros acharam que estavam sob ataque.
Eles não estavam.
Mas isso desviou a atenção.
A correção completa levou:

2.5 horas para entender a causa

1 hora para parar a propagação e gerar arquivo novo

2.5 horas de limpeza

•total: 6 horas de caos global

Por que o postmortem foi tão rápido

Aqui está a parte mais rara da história.

Matthew Prince:

participou da call de crise

voltou para casa

escreveu o rascunho do relatório

colocou o documento em circulação para perguntas

consolidou respostas

e publicou em menos de um dia

Num mundo corporativo onde postmortem costuma demorar semanas e ser cheio de floreios, a Cloudflare foi de uma honestidade desconfortável. E isso reforça por que ela continua sendo uma empresa admirada, mesmo quando pisa na bola.

As grandes lições que ficam

Agora vamos para o que realmente interessa: o que aprendemos.

1. Erros precisam ser registrados, não engolidos

Um dos trechos mais importantes do relatório mostra que o erro fatal nunca foi logado. Se tivesse sido, a descoberta teria sido quase imediata.

Registrar erro não é burocracia. É sobrevivência.

2. Mudanças globais em banco são sempre perigosas

Um ajuste pequeno de permissão virou uma avalanche.

E ainda não existe um jeito realmente seguro de prever o impacto total de mudança em banco de produção. Não importa quão sênior você seja, é sempre um risco.

3. Dois problemas simultâneos confundem qualquer time

A queda da página de status foi coincidência.
Mas coincidência durante crise vira distração.
Isso atrasou o diagnóstico.

4. A internet depende demais de poucas empresas

Cloudflare, AWS, Google Cloud, Fastly.
Se uma dessas espirrar, metade da internet pega gripe.

Dependências críticas são convenientes, mas perigosas. E criar redundância é caro. Hosting duplicado, backup CDN, rotas alternativas, servidores prontos para assumir tráfego são investimentos que poucas empresas conseguem pagar.

Mesmo gigantes como Downdetector caíram. Simplesmente não dá para ter redundância infinita.

5. Transparência ainda é a melhor ferramenta de confiança

A Cloudflare errou? Sim.
Mas a forma como assumiu o erro foi exemplar.

Postmortem rápido, completo, direto, sem narrativa defensiva.
A empresa perdeu pontos pela falha e ganhou pontos pela maturidade.

No fim do dia, a internet quer confiabilidade.
Mas quando algo quebra, ela quer honestidade.

O que isso tudo diz sobre o futuro da internet

Este não é um incidente isolado.
Nos últimos anos, vimos:

AWS ficar fora do ar e levar metade do mundo junto

Fastly derrubar sites governamentais

Google Cloud causar falhas globais

agora Cloudflare

A verdade é simples.

A internet funciona como um castelo gigante apoiado em poucos pilares.

E cada pilar é uma empresa privada.

Quando um pilar falha, o castelo treme.

Para a maior parte das empresas, ter redundância real custa mais do que elas podem pagar. E por isso o mundo vai continuar dependendo dessas infraestruturas centralizadoras.

É um equilíbrio delicado, imperfeito e altamente vulnerável.

E, paradoxalmente, o que mantém tudo funcionando é exatamente isso: bons times, bons processos e bons postmortems.

Quando a complexidade cobra a conta

A falha da Cloudflare mostra que:

até empresas de classe mundial tropeçam

pequenos detalhes têm efeito cascata gigantesco

a transparência acelera a confiança

a infraestrutura da internet é frágil

e, ao mesmo tempo, incrivelmente resiliente

Quando metade da internet cai, todos sofrem.
Mas quando alguém explica tudo com clareza, todos aprendem.
E é assim que um erro vira evolução.

Também existe uma outra leitura aqui: complexidade é inevitável, mas desorganização é opcional. Organizações que crescem sem disciplina técnica acabam confiando na sorte. As que crescem com clareza, método e arquitetura sólida reduzem drasticamente o risco de virar manchete pelos motivos errados.

É nesse ponto que a Devovea entra

Ajudamos empresas a navegar exatamente esse tipo de ambiguidade, com três pilares fundamentais:

Clareza técnica desde o primeiro passo
Uma arquitetura bem desenhada evita surpresas. Nasce do entendimento profundo do negócio, das suas dependências e das rotas de risco. Nada de castelos erguidos em areia fina.

Método para decisões estruturais
Mudanças de infraestrutura, plataforma ou integrações não são só tarefas. São pontos de inflexão. A Devovea atua para transformar essa complexidade em decisões com impacto positivo, previsível e sustentável.

Ritmo para fazer o novo acontecer
Implementação precisa de direção, cadência e governança. Acompanhamos parceiros, times técnicos e liderança para que teoria vire prática, e prática vire resultado.

Porque erros acontecem. O que não pode acontecer é o mesmo erro duas vezes.
E quando se trata de arquitetura de commerce, plataforma e operação digital, você merece um parceiro que olha para cada decisão como um pedaço do futuro da empresa.

Se o objetivo é evitar riscos sistêmicos, fortalecer sua base digital e crescer com segurança, a Devovea é a sua próxima fase.

Camilla Lichti

Categorias: Artigos

Tags: Arquitetura, Comércio Eletrônico, Digital Commerce, eCommerce, Erros, Lições Aprendidas

Pronto para dar o próximo passo?

Construa uma operação digital mais segura, clara e resiliente

Incidentes como o da Cloudflare mostram como pequenas decisões técnicas podem gerar impactos gigantescos nos negócios. Se você quer fortalecer sua arquitetura, avaliar riscos invisíveis ou garantir que sua operação digital cresça com solidez, a Devovea é o braço estratégico que faltava.
Trabalhamos lado a lado com você para trazer clareza, reduzir complexidade e transformar decisões críticas em rotas seguras e sustentáveis.

Fale com a Devovea