No entanto, o que foi projetado como uma solução à prova de falhas para resolver tal problema saiu pela culatra e os afetou. Quando a configuração do Logfwdr não estiver disponível, o failsafe enviará logs para todos os clientes. Nesse caso, aquele problema de cinco minutos causou um grande aumento no número de logs a serem enviados, sobrecarregando o sistema de buffer, Buftee, e fazendo-o parar de responder.
Buftee fornece buffers para cada transação Logpush, contendo 100% dos logs gerados pelo local ou conta especificada por aquela transação, portanto, a falha no processamento da transação de um cliente não afetará o progresso de outros. Ele contém salvaguardas para evitar que você seja sobrecarregado por um grande aumento no número de buffers – mas essas salvaguardas não foram corrigidas, disse Cloudflare.
“Um mau funcionamento temporário que durou cinco minutos causou um tráfego massivo que levou várias horas para ser reparado e recuperado”, disse o blog. “Como nossos backstops não estavam configurados corretamente, os subsistemas ficaram tão sobrecarregados que não conseguíamos nos comunicar com eles normalmente. Foi necessária uma redefinição e reinicialização completas.”