segunda-feira, 25 de novembro de 2013

Revelado: Como a Microsoft DNS foi titsup globalmente no Xbox Um dia de lançamento


5 maneiras de preparar sua infra-estrutura de publicidade para o desastre


Grande falha exclusiva da Microsoft na semana passada foi causada por uma confusa DNS global de política de implementação, que também derrubou alguns dos serviços internos da gigante de tecnologia.


A paralisação atingiu na quinta-feira , e derrubou sites-chave como Xbox.com e Outlook.com off, sacado a conectividade com a suíte de software on-line do Office 365, e cortou vários serviços em nuvem Azure do mundo exterior.







Nós também ouvimos de várias fontes que o erro aniquilou parte das redes da Microsoft no campus, bem como, tornando sistemas inacessíveis aos empregados.


Para uma empresa que se orgulha de se tornar um "serviços e dispositivos" firme, ter vários serviços online cair desligada de uma vez é muito ruim. XBox.com, por exemplo, foi tirado do ar apenas Xbox Um console da Microsoft foi colocado à venda em todo o mundo.


Agora El Reg pode revelar que a razão para esta mega-fail foi uma mudança flubbed a sua Diretiva de Grupo do Active Directory que trouxe os servidores DNS da empresa a um impasse.


Este erro "bloqueado inadvertidamente consultas DNS de entrada para servidores DNS da Microsoft", escreveu a Microsoft em uma "revisão pós-incidente" do documento, visto pelo Reg e distribuído aos clientes afetados. "Todas as zonas de propriedade da infra-estrutura de DNS autoritário Microsoft pode não ter resolvido dependendo TTL do lado do cliente."


No relatório, a empresa disse que a paralisação começou por volta de 22:10 UTC de quinta-feira, quando "os engenheiros de rede observado dificuldade em fazer alterações nos registros de DNS na infra-estrutura de DNS autoritário". O sistema voltou à pista por 23:30.


Na primeira, os engenheiros tentaram reverter a mudança de GPO e começou uma atualização forçada de política de grupo em toda infraestrutura de servidores DNS. Não houve melhora, e assim em 11:00 UTC eles reequilibrado sua infraestrutura de servidores DNS. Isso ajudou, e ao 23:15 executaram um script para reiniciar o balanceamento de servidores DNS. Como este propagado, as coisas melhoraram.


No entanto, 80 minutos não é um valor brilhante de tempo para bloquear os apostadores de serviços críticos de negócios. Durante a interrupção, os usuários podem ter tido dificuldade tentando acessar serviços essenciais da Microsoft, como o Exchange, SharePoint, Lync, e outros devido a "problemas de resolução de nome".


O impacto sobre os usuários também variou de acordo com suas próprias configurações de DNS time-to-live (TTL), disse a empresa. Para corrigir os problemas Microsoft pretende "melhorar os procedimentos de mudança de política", disse.


Ele também irá "atualizar ferramentas de comunicação para melhorar a resiliência", uma vez que não foi capaz de enviar mensagens para dashboard saúde dos seus serviços durante o incidente, porque "o problema de DNS impactado serviço interno".


DNS é uma tecnologia complicada de gerir quando você é uma empresa global de montar uma grande quantidade de sistemas on-line, mas nos parece que a Microsoft fez DNS muda um único ponto de falha - e isso precisa ser tratada.


Também estamos confusos quanto ao por que a Microsoft deixa de publicar relatórios como este em campo aberto, em vez tratá-los como informações corporativas valiosas (não são) e enviá-los apenas para os clientes afetados. Se você receber outras, não hesite em entrar em contato . ®



Nenhum comentário:

Postar um comentário