sexta-feira, 31 de outubro de 2014

Facebook diz segredos vendedor forçou a interruptores homebrew


Escolhendo uma nuvem de hospedagem parceiro com confiança


É quatro meses desde que o Facebook lançou o seu primeiro interruptor Wedge e acompanha o sistema operacional FBOSS. Algumas formas de cunha são biw em produção e outros estão em testes, por isso El Reg decidiu falar com o diretor do Facebook de operações técnicas, Najam Ahmad, para ver onde a rede social está em com sua rede definida por software (SDN) esforços.


Como os leitores vão se lembrar, a decisão do Facebook para apresentar a sua rede aberta e credenciais SDN veio em junho , com a promessa de que os resultados se tornariam parte do Projeto Open Compute .







Embora seja atraente para atribuir a motivação para as iniciativas de custo da matéria, Ahmad disse ao The Register que a qualidade indescritível chamado de "agilidade" foi pelo menos tão importante na decisão de prosseguir caseiro SDN. Ao contrário de muitas das pessoas que implantam o termo, Ahmad também estava disposto a falar através de um exemplo (sem, deve-se dizer, apontando o dedo a um fornecedor particular).


O que isquiotibiais os "vendedores de rede verticais", disse ele, é o lugar onde uma falha toca muito de perto sobre as jóias da coroa da sua propriedade intelectual.


"Uma das razões que começou a dirigir este foi que em nosso ambiente memcache, estávamos vendo as taxas pequenas, mas consistentes falha nos nossos centros de dados", explicou.


"Fizemos a solução de problemas por cerca de três semanas, mas não conseguia entender - e nós tivemos um monte de pessoas inteligentes tentando."


Como projetar um truque *


Foi só quando um desenvolvedor do fornecedor chave estava no local que os diagnósticos começaram a surgir - porque, ao contrário de qualquer pessoa no Facebook, o engenheiro fornecedor foi capaz de fazer login no ASIC dirigir a chave para acessar seus diagnósticos e descobrir que o chip estava causando perda de pacotes.


"Como é que sabemos isso?", Perguntou retoricamente Ahmad. "Não há balcão, eo comando está oculto."


A correção não foi apenas lento, disse El Reg, que era um fora-e-out remendo: com acesso ao comando secreto, um engenheiro do Facebook tinha que escrever um script que registrou em cada ASIC indivíduo no centro de dados, execute o comando secreto, coletar os dados via tela-arranhões, e analisar o ecrã de arranhões para que os dados pudessem ser analisados.


"Isso levou cerca de três semanas e, no final, foi um truque", disse ele.


Livrar-se do silício proprietário, substituindo-o por interruptores construídos em silício comerciante (já que pessoas como Broadcom querem que seus OEMs para fazer os chips de cantar e dançar), e controlar aqueles interruptores de um genérico quebras de servidores x86 para o mundo, uma vez dominada pela grande fornecedores de switches verticais, Ahmad disse-nos.


Faça um bot


Esse exemplo - e é que ele tem levantado em outros fóruns em diferentes níveis de detalhe - é apenas a ponta do iceberg, uma vez que "aprendemos novos cenários de falha todos os dias da semana".


Não há simplesmente muita infra-estrutura para gerir qualquer coisa como tempo real, disse Ahmad. "Nossa filosofia é que queremos que os robôs para gerenciar as redes, e queremos que as pessoas a construir os robôs."


O modelo de gestão de recursos humanos - que tem sido Network Management 1,01 desde os dias de SunNet Manager - tem pessoas assistindo consoles de alerta ou ser paginados pelo sistema, identificando o dispositivo que foi embora escuro, login, solucionando-lo, mitigar o problema, em seguida, retornando o dispositivo para serviço.


A abordagem do Facebook é enviar alertas para um software que analisa-lo e analisar o impacto do alerta ,.


Se não há nenhum impacto imediato (por exemplo, se é uma porta Ethernet que serve um dos doze servidores com balanceamento de carga), o robô irá abrir um ticket sem envolvimento humano. Serviços do site, então, responder ao bilhete no próprio tempo.


Considerando que, se há um impacto - que é quando o robô vai levantar um ser humano imediatamente.


No entanto, aqueles robôs só pode ser escrito, se um fornecedor expõe o suficiente de suas APIs - ou se o interruptor está aberto desde o início. Se um novo modo de falha é descoberta, "nós queremos ser capazes de construir o robô imediatamente e implantá-lo", ao invés de esperar seis meses por uma resposta do fornecedor.


O metal barest


Tudo isso levou The Register a se perguntar: o que é o metal mais nu que pode ser implantado como um interruptor "bare-metal", e ainda tem algo que você pode chamar um switch?


Ela começa com as capacidades do processador de pacotes silício comerciante, Ahmad respondeu. "Em cima disso, você precisa de um sistema operacional que permite que você gerencie o dispositivo e configurá-lo, e uma pilha de protocolos para que possa dizer o chip o que você precisa fazer.


"Essas são as duas componentes de software que são necessários."


No Projeto Open Compute, disse ele, o objetivo é que o hardware do switch não tem nada além de uma caixa e um gerenciador de inicialização (o projeto adotado Cumulus Networks Onie para este fim em 2012), e escolher o sistema operacional que você carregar nele, se se trata de fornecedores como Cumulus Networks ou Big Mudar, algum outro OEM, ou é um DIY.


Linux fornece as bibliotecas e os processos de usuário necessários para executar os protocolos de um site precisa, ea configuração permite que outras capacidades a serem construídas ou contribuído, sem depender de processos de fornecedores. Facebook, disse ele, foi construído um sistema de monitoramento que está agora no processo de embalagem como uma biblioteca para uma versão open-source.


"É aí que Cunha está acontecendo hoje. O hardware Wedge foi concebido a partir de baixo para cima - redesenhou a placa-mãe como um sistema modular, com um monte de recursos / funcionalidade dirigindo para desagregar e gestão dos dispositivos, assim como nós sarna servidores ", disse ele.


Com o tempo, ele disse, os principais componentes do sistema operacional FBOSS acompanha também será open source. ®


* Bootnote: Sim, isso foi um hat-ponta intencional de uma peça seminal de computador humor indústria publicado na Datamation em 1962, e preservados aqui , entre outros lugares. Certamente, a construção de um roteiro para os comandos internos ASIC tela-raspagem tem a "certeza, indefinível, finesse masoquista", que Jackson Granholm exige que a característica que define o truque. ®



Nenhum comentário:

Postar um comentário