quarta-feira, 25 de junho de 2014

Codinomes Flumejava, Millwheel ... não, não NSA: A tecnologia em Grokker dados do Google Cloud


Gartner capacidades críticas para backup endpoint empresa


Google I / O Google criou uma coisa nova para desenvolvedores que querem ter seu bolo cheio de dados e comê-lo agora, ou talvez coloque-a para mais tarde e morder-lo no lazer.


A ferramenta de análise de dados de streaming Google Cloud fluxo de dados (respirar) foi anunciado pela gigante anúncio na quarta-feira em sua conferência I / O, em San Francisco.







Ele combina lote e processamento de dados de streaming em uma única ferramenta, e permite aos desenvolvedores realizar análises complexas e manipulação de tarefas ou como fluxos de dados em um sistema, ou depois de ter sido recolhidas.


O software é a mais recente tentativa do Google para pressionar suas tecnologias internas avançadas para a luta contra a Amazon e Microsoft pelo domínio do mundo nuvem pública. Assim como Bezos & Co fizeram seu dinheiro nuvem através da exploração de uma falta de vontade por empresas incumbentes tecnologia para reduzir os seus preços, o Google está predando sobre alergia da Amazon para divulgar sua tecnologia interna, colocando seus sistemas de super-secretos em sua nuvem pública para saltar à frente da Amazon .


"Você pode usar Nuvem de fluxo de dados para casos de uso, como [Extract, Transform, Load], lote processamento de dados e streaming de analytics, e vai otimizar automaticamente, implementar e gerenciar o código e os recursos necessários", o Google explicou em seu blog .


O que diferencia o "Google Cloud fluxo de dados" além de outros sistemas é o uso de tecnologias do Google internos que a empresa construiu depois que ele teve problemas com MapReduce, uma abordagem de computação que foi refinado por Yahoo! Em uma tecnologia de código aberto chamado Hadoop.


"Nós não usamos MapReduce mais", explicou nuvem de marketing cara do Google Brian Goldfarb em uma conversa com o Reg. "Queríamos algo novo que lida com escala exabyte [dados]. Se você quiser usar lote ou em tempo real que são modelos de programação completamente diferentes ou conceitos, estamos tentando mesclar todos aqueles juntos."


Algumas das maneiras que você pode usar a tecnologia são para detecção de anomalias em tempo real, tais como análise de dados da Copa do Mundo contra a dados históricos para saber quando um jogo entre duas equipes tem um termo inesperado. Outros exemplos que podemos pensar se incluem: isolar cenários de falha em grandes quantidades de dados gerados por máquina, como logs do servidor; e detectar mudanças no comportamento do cliente em um site de e-commerce após um tweak design.


Nuvem de fluxo de dados depende de duas tecnologias do Google internos - Flume e Millwheel - para torná-lo "um serviço totalmente gerenciado para a criação de pipelines de dados que ingerem, transformar e análise de dados em lote e modos de streaming," de acordo com post no blog do Google.


A tecnologia vai competir com Amazon Web Services " Kinesis produto, que foi lançado no ano passado em Re homônimo da empresa:. inventar conferência em Las Vegas Kinesis especializada em streaming de dados, e os usuários têm que ir para outros serviços da AWS, como Elastic Map Reduce, para trabalhos de grupo.


Google é capaz de bung streaming e análise do lote juntos em uma plataforma através da utilização de FlumeJava e Millwheel.


Cole isso em seu pipeline e fumá-lo


"FlumeJava é uma biblioteca Java puro que fornece algumas abstrações simples para cálculos de dados paralela de programação", o Google explica em um trabalho acadêmico que descreve a tecnologia [PDF] . "Estes são abstrações de nível mais elevado do que aqueles fornecidos pelo MapReduce, e proporcionar um melhor apoio para as condutas."


Millwheel, entretanto, é "uma estrutura para a construção de aplicações de processamento de dados de baixa latência que é amplamente utilizado no Google," de acordo com um artigo descrevendo-o [PDF] . "Os usuários especificar um código de aplicação para nós individuais gráfico e compuation dirigido, eo sistema gerencia o estado persistente e do fluxo contínuo de registros, tudo dentro do envelope de garantias de tolerância a falhas do quadro."


"Imagine um mundo onde você está conectando pacotes de código aberto complexos, como Kafka e Hadoop juntos ... por ter [los acessíveis através de] uma API como um serviço gerenciado", explicou Goldfarb.


Juntamente com a ferramenta, o Google anunciou novos utilitários de monitoramento para sua nuvem para ajudar "os desenvolvedores a entender, diagnosticar e melhorar os sistemas de produção."


Estes incluem o Google Cloud Monitoramento, que usa software da recente aquisição do Google Stackdriver para dar aos desenvolvedores métricas, dashboards e alertas para a tecnologia do próprio Google, juntamente com Apache, Nginx, MongoDB, MySQL, Tomcat, IIS, Redis, elasticsearch e outros.


"Você pode usar Nuvem de Monitoramento para identificar e solucionar os casos em que os usuários estão experimentando taxas de erro de conexão a partir de um aumento do módulo do App Engine ou tempos de consulta lenta de um banco de dados Cassandra com configuração mínima", disse a empresa. Para ajudar os desenvolvedores a isolar falhas específicas que também lançou "Cloud Traço", que visualiza o tempo de um aplicativo gasta processamento de pedidos específicos.


Finalmente, o Google lançou Nuvem Debugger, que promete "para ajudar a depurar seu aplicativo em produção, com eficácia nenhuma sobrecarga de desempenho", dando devs "um rastreamento de pilha completo e fotos de todas as variáveis ​​locais para qualquer watchpoint que você definir em seu código enquanto sua aplicação continua a funcionar sem perturbações na produção. "


Embora o Google não divulgou quais tecnologias permitiram que estes serviços, é altamente provável que avançado baixa sobrecarga da empresa "cPi2" monitoramento cerebral está alimentando-se de dados nos sistemas de nuvem acima mencionados. ®



Nenhum comentário:

Postar um comentário