segunda-feira, 9 de março de 2015

Google promete preparação correção adequada após nova falha de cloud


Google Compute Engine (CGE) de usuários experimentaram uma queda de energia no fim de semana, depois de um incidente que tem muita semelhança com uma queda pior que derrubou o serviço em fevereiro.


A fevereiro FALHA surgiu quando "O sistema de software interno que programas de rede virtual do GCE para VM tráfego egresso parou de emitir informações de roteamento atualizado."





Esta nova paralisação, que começou às 09:55 sábado 7 de março, horário padrão do Pacífico, foi causada pela "perda de pacotes no tráfego de rede de saída" e significou usuários experimentaram sintomas que vão desde "... respostas nenhum impacto visível, para extraordinariamente lento, para os tempos de espera de tentar entrar em contato com a VM. "


As coisas voltaram ao normal 43 minutos mais tarde e Google diz máquinas virtuais ficou acordado, mas a causa da confusão desta vez foi um remendo mal feito.


Google ofereceu a seguinte explicação sobre o incidente:


A causa principal da perda de pacotes foi uma mudança de configuração introduzidos para a pilha de rede projetado para proporcionar maior isolamento entre VMs e projetos por limitação do volume de tráfego permitido por uma VM individual. A alteração de configuração tinha sido testado antes da implantação para produção sem incidentes. No entanto, uma vez que foi introduzida no meio de produção que afecta alguns VMs de uma forma inesperada.

Esta queda foi menos grave do que o incidente de Fevereiro e Google diz que seus engenheiros estão "investigando por que o teste antes da mudança não prever com precisão o desempenho do mecanismo de isolamento na produção." A empresa tem uma resposta mais dura desta vez, explicou como segue.


Futuras alterações não serão aplicadas a produção até a suíte de testes foi melhorado para demonstrar a paridade com o comportamento observado na produção durante o incidente. Além disso, os engenheiros do Google estão imediatamente que altera o protocolo de implantação para as alterações de configuração de rede para que futuras mudanças na produção será aplicada a uma pequena fração de VMs em um momento, reduzir a exposição em caso de comportamento sem ser detectado.

Esta nova interrupção foi breve e menor. Mas o Google está claramente pegou a esperança com os seus procedimentos de aplicação de patches.


Google e sua laia são vistos como os especialistas em computação na Hyperscale. Interrupções como este sugerem que todos nós temos muito o que aprender. ®



Nenhum comentário:

Postar um comentário