Comentário Todo mundo gosta de sistemas hiper-convergiram. Eles são legais, denso, rápido, a economia de energia, ágil, escalável, gerenciável, easy-to-use, e tudo aquilo que você quer. Mas você sabe o quê? Eles têm os seus limites também.
Eles são bons para cargas de trabalho de média, uma grande variedade de cargas de trabalho de fato, mas não para as cargas de trabalho que necessitam de grandes quantidades de um recurso específico em detrimento de outros, como o Big Data, por exemplo.
Dados cresce (constante ... e exponencialmente) e nada é jogado fora. Como os dados acrescenta-se, o conceito de "lago de dados" tem tomado forma. Mesmo os sistemas criados para big data estão começando a sentir este problema e arquitetos de sistemas estão começando a pensar de forma diferente sobre o armazenamento.
Eu vou olhar para Hadoop, porque dá um bom exemplo de uma infra-estrutura hiper-convergente.
Hoje, a maioria dos clusters Hadoop são construídos em cima de um HDFS (Hadoop Distributed File System). HDFS características tornam este sistema de arquivos muito mais barato, confiável e mais escalonável do que muitas outras soluções, mas, ao mesmo tempo, ele é limitado pela própria concepção cluster.
/ / Rácios de capacidade da CPU RAM / rede são importantes para projetar os melhores sistemas equilibrados, mas as coisas mudam tão rapidamente que o que você implementou hoje pode se tornar amanhã muito ineficiente. Eu sei que nós estamos vivendo em um mundo-hardware-mercadoria muito agora, mas, apesar do pouco tempo de vida de hardware moderno não estou convencido de que as empresas estão dispostas a mudar as suas infra-estruturas (e gastar carradas de dinheiro) com muita freqüência.
Olhe para o que está acontecendo. Dois anos atrás, era tudo sobre Map Reduce, então era tudo sobre Hive / Impala e afins, agora é tudo sobre Faísca e outras tecnologias de memória. Qual é o próximo?
Seja como for, a minha primeira pergunta é: "Será que eles podem ser executados no mesmo cluster?"
Sim, é claro, visto que a infraestrutura subjacente, agora Hadoop 2.6, evoluiu bem.
Mas a verdadeira questão é: "Eles podem correr com o mesmo nível de eficiência na mesma de dois anos de idade cluster?" Mmmm, provavelmente não.
E então surge outra pergunta: "Você pode atualizar esse cluster para atender as novas exigências?"
Bem, esta é uma pergunta difícil de responder. Capacidade cresce, mas você normalmente não precisa processar todos os dados ao mesmo tempo, enquanto, por outro lado, as aplicações, as necessidades de negócios, e as cargas de trabalho mudam muito rapidamente, tornando-se difícil construir um cluster hiper-convergente e servi-los todos eficientemente.
As coisas ficam ainda mais complicado se o grande aglomerado de análise de dados torna-se uma utilidade para toda a empresa. Ferramentas clássico Hadoop não são os únicos, e muitos departamentos da organização têm diferentes pontos de vista e necessidade de fazer análises diferentes em diferentes conjuntos de dados (o que muitas vezes vêm das mesmas dados brutos); é uma das vantagens de um lago de dados.
Nenhum comentário:
Postar um comentário