
Apple e Samsung se fundem. Cloudera + Horton?
Parece um título incrível, não é? Pois algo parecido acaba de acontecer no mundo das plataformas BigData.
Na noite de 3 de outubro, por volta das 4:00 da manhã para as bolsas asiáticas, saía a grande notícia: Cloudera e HortonWorks se fundiam em uma única empresa, em uma proporção de 60/40, respectivamente. Fiquem tranquilos, pois não vamos sobrecarregá-los com dados, estatísticas, nem projeções do mercado dos dados no contexto digital. Mas é notório que dois fornecedores que poderiam ter facilmente mais de 90% do mercado unam forças. Por quê? Contra o quê ou quem? Vamos ver se podemos compreendê-lo um pouco melhor.
Cloudera
A Cloudera surgiu em 2009com um claro propósito: ser ser a primeira empresa a atender às necessidades de ter um bundle de ecossistema Hadoop completo, seguro e sólido com recursos de negócios, que tornam seu uso viável para grandes empresas.Até então, o ecossistema Hadoop não era mais do que um aglomerado de projetos Apache com vida própria e quase sem funcionalidades segurança. Era um trabalho imenso, muito técnico e pouco confiável para investimentosneste contexto. A Cloudera prometia tudo isso: uma camada de softwareSW proprietário para ajudar a administrar, operar e implementar segurança em mais de 10 projetos Apache, garantindo que funcionassem de forma integrada.
A Cloudera chegou primeiro ao mercado, com um discurso sólido de segurança, compliance, PCI, facilidade para incluir este novo ecossistema na arena de aplicativos, além de grande capacidade de processamento e armazenamento, flexibilidade, dados não estruturados e preços reduzidos, se comparado com as grandes dominadoras da época, como a Teradata, a Exadata e a Netezza.
A Cloudera chegou primeiro ao mercado, com um discurso sólido, de segurança, compliance, PCI, com preço menor do que os dominadores da época e maior flexibilidade.
Como um ecossistema aberto, começaram com o HDFS, Zookeper, MapReduce etc., mas foram evoluindo para o Spark, Mesas, SOLR, Impala; muitos deles, embora dentro do mundo Apache, claramente possuíam blue background
Sua última grande aposta, a Cloudera DataScientist Workbench, módulo necessário ao mercado para que seus ambientes do DataScientist fossem viáveis (embora não 100% deles). E o KUDU, um novo Storage, para atender a grande demanda de Analytics em tempo real, que o antigo HDFS não conseguia suportar.
Hortonworks
A Horton surgiu dois anos depois, em 2011. Os que entendem de finanças dizem que um mercado maduro tem dois players dominantes, e a Horton entendeu qual seria o seu papel. Sua estratégia foi bem diferente, poucos softwares proprietários, 100% alinhado com a comunidade, preços mais reduzidos, e, talvez sua melhor característica, uma maior flexibilidade para incluir e adaptar as evoluções da comunidade. A Cloudera sempre tardava em incluir as alterações, precisamente por ter que integrá-las com toda a sua camada adicional de administração. Seu grande benefício era também o seu calcanhar de Aquiles.
No início, a Cloudera teve a posição dominante, o discurso de segurança chegava direto aos grandes bancos e a última coisa que eles queriam eram erros em seus novos investimentos. Mas a comunidade começou a evoluir suas funcionalidades de segurança e operação, até chegar quase ao nível da Cloudera. Embora não tão sólido e robusto, o bundle da Horton funcionava beme era mais barato. Apesar de apostar na Storme não na Spark a princípio, conseguiram reagir e recuperar mercado. Apesar de não ter a Impala, a Hive evoluiu até se tornar uma empresa competitiva para interactive query. Em sua última versão, tiraram até mesmo a Solr do bundle, mais próximo da Cloudera. Mas eles tiveram um grande acerto: a HDF (Hortonworks Data Flow). Em vez de apostar em Analytics, viram que o mercado demandava uma ferramenta para organizar, ordenar e acelerar os processos de admissão de analytics em tempo real. Na Cloudera é viável fazê-lo, porém através da codificação, e todos que vivemos a era DWH pré-ferramentas ETL sabemos como termina toda essa codificação. Foi criada a HDF, uma solução independente gerada sobre o Apache NIFI para organizar as ingestões, com um IDE visual, e funcionalidades de operação e monitoramento, a Kafka, e o SAM, um ambiente visual o desenvolvimento de processos sobre o Storm. Por ser um módulo separado, poderia até mesmo ser utilizado para ingestão na Cloudera. Tanto que seu concorrente teve que reagir anunciando futuras integrações com StreamSets.
Em vez de apostar em analytics, viram que o mercado demandava uma ferramenta para organizar, ordenar e acelerar os processos de ingestão.
Mercado
Nesse momento, a luta parecia justaentre dois grandes vendedores, com apostas e estratégias diferentes, e que dominavam o mercado, quase sem concorrência. Até que surgiram os grandes vendedores Cloud com suas plataformas SaaS. A Amazon, o Google e a Microsoft, posicionaram-se a favor de componentes SaaS de Big Data, equivalentes, complementares e adicionais aos da Cloudera e da Horton, além de um discurso muito poderoso, que não exigia explicações. Contrate o que quiser usar, experimente, cancele. isto é, as clouds transmitirão uma mensagem muito poderosa: “com a gente, você pode errar sem comprometer o seu orçamento”. Curiosamente, a IBM não conseguiu ser um player Cloud BigData. Erraram desde o início com a BigInsights e seu proprietário Hadoop, e, por fim, se aliaram à Horton e apostaram em investimentos na Spark na comunidade.
“Com as SaaS, você pode errar sem comprometer o seu orçamento”.
A natureza das iniciativas analíticas tem muito de experimentar, testar, errar e voltar a tentar. Além disso, os tempos de resposta e TTM dos fornecedores de HW são altos, complexos, lentos e pouco flexíveis. Por meio de simulações de custos, podemos verificar que a Cloud começou muito mais econômica, e que houve um “break even” em uns 2 ou 3 anos. Mas sejamos realistas, quem nos dias de hoje faz planos para 2 ou 3 anossobre uma iniciativa nova? Como saber o dimensionamento para comprar assinaturas de um projeto novo, em batch e em tempo real, sem conhecer os casos de uso, o sizing, nem como ele realmente funciona, e o retorno que terá?
Exatamente, a grande concorrência entre a Horton e a Cloudera não é entre elas, mas com os grandes players Cloud, a Amazon, a Microsoft e o Google (lembre-se de onde saíram os papers que inspiraram o Hadoop há anos), que desde o final de 2017 e no começo deste ano, estão roubando altas porcentagens das quotas de mercado de plataformas de Big Data. Sua posição dominante estava claramente em risco, e, possivelmente, se considerassem suas individualidades, não poderiam vencer neste mercado.
Fusão
E chegamos ao ponto da fusão. Ainda que não saibamos seus detalhes, e o que realmente significa a Cloudera ter 60% e a Horton, 40%, o que podemos analisar são os dados da nota de imprensa:
- Estabelecido o líder da plataforma de dados da próxima geração com maior escala e maiores recursos, fornecendo a primeira nuvem de dados corporativos do mercado e facilitando o uso e a flexibilidade da nuvem pública do data center para o Edge e para qualquer outro produto necessário.
A primeira mensagem é que elas estão procurandocriar o líder corporativo para plataformas cloud, que proporcionará elasticidade entre o cloud, o DataCenter e o edge (dispositivos de IOT). A mensagem quer atacar o calcanhar de Aquiles das soluções Cloud: a portabilidade, o vendor locking. Se uma construção for feita sobre os módulos SaaS de qualquer um deles, não será possível sairnem de seus produtos, nem da sua nuvem. Isto é, você tem um vendor locking eterno. Mas o que aconteceria se a nova empresa conseguisse fornecer uma plataforma única, oferecida em cloud como SaaS em modo gerenciado, em que o mesmo código pudesse ser migrado diretamente para On-Premisessem nenhum custo?
E se a nova empresa conseguisse fornecer uma plataforma única, oferecida em cloud como SaaS em modo gerenciado, em que o mesmo código pudesse ser migrado diretamente para On-Premises sem nenhum custo?
Kubernetes, o mundo dos contêineres, existe.. O discurso seria potencialmente poderoso, ao propor uma plataforma híbrida que possuísse os dois benefícios. Por um lado, você pode começar rápido, como SaaS,permitindo-se errar e, se funcionar, você o terá durante 3 anos, poderá simplesmente movê-lo para o seu DataCenter, pois, a médio prazo, será mais barato. Você não se “casa” com nenhuma cloude apesar de utilizar a sua nova plataforma, por ser de alguma forma Apache, sempre haveriam vias de saída (teóricas).
- Cria uma plataforma superiorunificada e um padrão de mercado, desde o Edge até a IA, o que beneficia os clientes, parceiros e a comunidade.
- Expande as oportunidades de mercado com ofertas complementares, incluindo o Hortonworks DataFlow e o Cloudera Data Science Workbench.
Podemos considerar estas duas mensagens combinando-as. Juntando os módulos diferenciais de HDF para ingestão e a capacidade Edge com NIFI, integração, etc., juntamente com as capacidades analíticas, aqui chamadas IA, conseguimos uma plataforma sólida e completa de ponta a ponta.
- Acelera o desenvolvimento do mercado e impulsiona inovações para a IoT, streaming, armazenamento de dados, nuvens híbridas, aprendizado de máquina/IA.
A mensagem aqui é que a solução é completa, sólida, e serve para todos os casos de utilização de dados demandados pelas empresas, em um modelo híbrido que até o momento não existe.
- Melhora parcerias com fornecedores de nuvens públicas e integradores de sistemas.
Ao se unirem, o produto permitirá às empresasnegociarem com clientes e gerarem parcerias, especialmente em relação às clouds, com força maior, para de alguma forma, controlarem a comunidade (se ela permitir, é claro).
Conclusões
Na ausência de validação por todos os órgãos da fusão, estamos diante de um grande terremoto no mundo do Big Data. Parece que há anos ocorreram certas aproximações quando a Horton não passava por um bom momento, mas claramente, agora, o equilíbrio de forças é totalmente diferente. Um movimento que, observando a retrospectiva e analisando os fatos, parece lógico, mas que, uma semana atrás, talvez ninguém tivesse considerado entre as suas opções.
- Teremos que observar como a comunidade reagirá, e se a nova empresa deseja ter muito controle, pois foi demonstrado que o mundo open source tem certos receios sobre estes controles.
- Veremos como seus clientes reagirão, pois querem sempre ter várias opções para comparar, e talvez seja a oportunidade de outros, como a MapR ou a Stratio, destacarem-se no panorama. Também resta analisar o quesito “preços”, pois são claramente diferentes.
- Também precisaremos observarcomo vão reagir os fornecedores de Cloud, que de alguma forma eram aliados-rivais até agora, e que possivelmente terão de decidir como prosseguir futuramente.
O que é certo é que o mercado dos dados evoluirá com este movimento, e que as ferramentas e plataformas que as empresas terão à sua disposição serão mais completas e mais capazes de continuar potencializando os processos de negócio das empresas, permeando cada um dos cantos da empresa. com analytics.
Agora mais do que nunca: “Put Intelligence to Work”.