Nutanix Next 2026: Desempenho e Escalabilidade (Dia 2)

Published by

on

Dando continuidade à cobertura do Nutanix Next 2026, entramos no segundo dia com o foco total na aplicação prática da engenharia. Se no primeiro dia discutimos as fundações de soberania e a lógica do control plane, agora o cenário é o mundo real da produção, onde as métricas de performance e a viabilidade financeira ditam as regras. A primeira sessão que analisei trouxe um caso de uso que ilustra exatamente o ponto de virada para muitas arquiteturas: a integração do AHV com storage externo da Pure Storage via NVMe/TCP.

Sessão 1: The Best of Both Worlds: Unifying Nutanix Operational Simplicity with Pure Storage Performance

A primeira sessão do segundo dia analisou um ambiente de produção crítico. Mark Hendricks, engenheiro da Legacy Health, detalhou o desafio de sustentar o Epic (um sistema de prontuário eletrônico). O problema central era garantir a performance de um Banco de Dados Operacional (ODB) de 67 TB com requisições intensas de I/O, rodando sobre uma infraestrutura legada baseada em Hyper-V.

O objetivo era escalar capacidade e simplificar a operação, abandonando o hypervisor legado sem a necessidade de adquirir processamento excessivo embutido nos nós do cluster. A solução técnica consistiu na união do Nutanix AHV com os arrays da Pure Storage utilizando o protocolo NVMe/TCP.

A análise técnica da implementação revela os seguintes pontos operacionais:

  • Estratégia de Migração (In-Guest Mapping): Mover 67 TB por rede em uma janela de manutenção seria inviável. A equipe de TI resolveu o problema na camada de armazenamento. No cluster Nutanix AHV, foi preparada antecipadamente uma nova VM hospedando apenas o disco de sistema operacional. Como os dados já residiam no array da Pure Storage via Fibre Channel no ambiente legado, a migração consistiu em alterar o protocolo na controladora do storage para NVMe/TCP. Utilizando o initiator de software do próprio Linux (In-Guest), os volumes foram montados diretamente na nova VM. Essa manobra atrelou o banco de dados ao novo hypervisor em 15 minutos, eliminando a movimentação de blocos pela rede.
  • Conectividade sobre Ethernet: Para suportar a demanda do Epic, a malha de rede foi estruturada com interfaces de 100 GbE. O uso do protocolo NVMe/TCP eliminou a dependência de redes Fibre Channel dedicadas. Com o tráfego fluindo diretamente para a VM, o ambiente atingiu picos de 300.000 IOPS com latência sustentada abaixo de um milissegundo. O teste validou a capacidade da rede IP corporativa para suportar armazenamento Tier 1.
  • Otimização da Janela de Backup: A estratégia de proteção de dados da empresa consiste em gerar um snapshot no Pure Storage e montá-lo em uma Data Mover VM, de onde o Rubrik extrai as informações. No ambiente legado com Hyper-V e Fibre Channel, o backup do banco exigia uma janela de 13 a 14 horas. Com a nova topologia, a Data Mover VM hospedada no AHV passou a consumir o snapshot via NVMe/TCP sobre a rede de 100 GbE. A mudança elevou o throughput para 6.8 GB/s, reduzindo o tempo para 1 hora e meia. O fluxo de leitura saturou as controladoras do storage, exigindo a aplicação de QoS para limitar a banda e estabilizar a janela em 3 horas.
  • Desacoplamento de Recursos: O modelo de hiperconvergência padrão vincula o crescimento de disco ao crescimento de CPU e memória, o que gera custos de licenciamento adicionais em cenários de bancos de dados de grande porte. Ao externalizar o armazenamento via In-Guest mapping, a Legacy Health obteve a flexibilidade de escalar capacidade de forma independente do cluster computacional Nutanix, mantendo a gestão unificada do sistema operacional e reduzindo a complexidade para a equipe de TI.

A conclusão técnica desta implementação atesta que a substituição de malhas Fibre Channel por redes IP com NVMe/TCP é viável e recomendada para cargas de missão crítica. O modelo adotado pela Legacy Health comprova que é possível utilizar o Nutanix AHV para gerenciar o ciclo de vida computacional e delegar o I/O massivo ao Pure Storage. Isso resolve o problema de escala de banco de dados, permitindo crescimento independente de armazenamento sem onerar o licenciamento do cluster principal.

Sessão 2: Rethinking Virtualization: Why AHV + FlashArray Is the New Enterprise Default

Com a solução agora em disponibilidade geral (GA), a parceria entre Nutanix e Pure Storage deixa de ser apenas uma validação de compatibilidade e passa a ser uma orquestração nativa via software. O foco desta sessão foi detalhar como o Prism Central e o Prism Element assumem o controle do armazenamento externo, eliminando a gestão isolada e o ponto cego do hipervisor.

Abaixo, os detalhes da mecânica de funcionamento apresentados nos slides e discussões:

  • Comunicação via API e Orquestração no Prism: A integração é baseada em chamadas REST API entre o plano de controle da Nutanix e o FlashArray. No momento em que a equipe de TI provisiona um disco no Prism, o sistema instrui automaticamente o array a criar o volume e realizar o zoneamento. Isso elimina a necessidade de gerenciar o storage via console externa para operações rotineiras, consolidando o controle em uma interface única.
  • Conectividade Multipath e NVMe/TCP: A fundação desse design é o protocolo NVMe/TCP rodando sobre redes de 100 GbE. A mecânica estabelece que o AHV crie caminhos de dados diretos entre os nós computacionais e as controladoras da Pure. O Nutanix orquestra nativamente o multipathing, garantindo que o I/O massivo não sobrecarregue a CVM (Controller VM) e chegue ao storage com latência mínima.
  • Snapshots Imutáveis e Proteção de Dados: Um dos pilares de segurança apresentados é a integração do Pure SafeMode com as Protection Policies do Prism Central. Quando a equipe de TI define uma política de proteção na Nutanix, o sistema aciona snapshots imutáveis diretamente no FlashArray. Esses snapshots são protegidos contra deleção ou modificação, permitindo uma recuperação rápida baseada em metadados caso ocorra um incidente de segurança.
  • Escala Multi-Cluster: Ao contrário do modelo HCI purista, a integração GA permite que múltiplos clusters Nutanix (produção, desenvolvimento e DR, por exemplo) apontem simultaneamente para o mesmo FlashArray. Isso consolida a redução de dados (desduplicação e compressão globais) em um único hardware, enquanto o Prism gerencia a apresentação de volumes de forma isolada para cada cluster.
  • Offload de Processamento: O modelo permite que as tarefas de redução de dados e criptografia sejam executadas integralmente pelas controladoras da Pure. Isso devolve ciclos de CPU e memória RAM para o cluster Nutanix, aumentando a densidade de VMs por host, já que o AHV não precisa processar o I/O de armazenamento em sua camada de software local.

A integração transforma o FlashArray em um recurso nativo dentro da plataforma Nutanix. A combinação do Prism Central orquestrando snapshots via SafeMode e a flexibilidade de conectar múltiplos clusters ao mesmo pool de dados cria uma infraestrutura que escala de forma independente. O modelo mantém a simplicidade operacional do AHV com a resiliência do armazenamento da Pure.

Sessão 3: Building and Operating Nutanix Hybrid Cloud at Scale: Manage Up to a Million VM and Container Workloads

A meta discutida nesta sessão é sustentar um milhão de máquinas virtuais e containers distribuídos em até cem mil clusters. Para viabilizar esse volume sem degradar o plano de controle, a infraestrutura abandona o modelo de gerenciamento centralizado tradicional e adota um design de planos de controle federados e isolamento de domínios.

Os pilares da engenharia para essa escala são:

  • Separação de Domínios de Infraestrutura: O modelo introduz a divisão lógica e física entre Domínios de Gerenciamento e Domínios de Aplicação. O plano de controle (Prism Central e NCM) reside em clusters dedicados, enquanto os workloads rodam em clusters de execução puros. Essa segmentação impede que a telemetria massiva concorra por recursos de I/O e CPU com as aplicações, garantindo que o orquestrador escale de forma independente.
  • Automação via Nutanix Infrastructure Manager (NIM): A construção da infraestrutura em larga escala é operada por meio de modelos declarativos. O processo utiliza especificações de entrada (Input Specs) e uma lista de materiais validada (Full Stack BoM) para automatizar o deployment de toda a pilha (AOS, AHV e rede). Isso assegura que cada nó da frota siga exatamente a mesma configuração técnica, eliminando os desvios que tornam a operação manual inviável.
  • Malha de Rede com VPCs e Transit VPCs: Para resolver o conflito de redes sobrepostas (overlapping IPs) em ambientes globais, o design utiliza Virtual Private Clouds (VPCs) operando na Camada 3. O isolamento é feito via software, onde a conectividade entre locatários e o mundo externo é orquestrada por Transit VPCs e roteamento dinâmico via BGP. Essa topologia provê escalabilidade de endereçamento para os workloads sem gargalos de broadcast na rede física.
  • Governança Centrada em Projetos e Cotas: A gestão individual de objetos é substituída por uma camada de abstração baseada em Projetos. O Prism Central atua como um repositório de metadados onde as políticas de acesso (RBAC) e as cotas de recursos são definidas. O orquestrador valida as solicitações contra o estado global da frota em tempo real, permitindo um modelo self-service onde a alocação é automatizada por políticas e não por requisições manuais para a equipe de TI.
  • Resiliência Baseada em Consistência de Metadados: O índice de 92% de sucesso na restauração do plano de controle é resultado do tratamento da infraestrutura como um estado estritamente consistente. Em cenários de falha grave, o sistema reidrata o banco de dados de metadados em um novo Domínio de Gerenciamento. Como o inventário é versionado, a reconstrução do estado global ocorre com integridade, restaurando a governança sobre a frota rapidamente.

A conclusão técnica desta sessão demonstra que operar em larga escala exige tratar a infraestrutura como um software programável. O uso do NIM para padronização e das VPCs para isolamento transforma o data center em uma nuvem elástica, absorvendo a complexidade na camada de orquestração.

Sessão 4: AHV Performance Deep Dive

A quarta sessão focou na engenharia interna do hypervisor AHV, detalhando como o software manipula o hardware para reduzir a sobrecarga de virtualização. O objetivo central foi demonstrar os ajustes que permitem que aplicações sensíveis à latência rodem com performance próxima ao bare-metal.

Os pilares técnicos discutidos para extrair performance máxima foram:

  • Mecanismo AHV Turbo e I/O Multi-queue: O AHV Turbo atua como um motor de I/O que evita os gargalos tradicionais do QEMU. Através da implementação de múltiplas filas para dispositivos VirtIO-SCSI, o hypervisor permite o paralelismo real em storages NVMe. A principal vantagem técnica é a redução drástica de trocas de contexto (context switches) entre o kernel e o espaço do usuário, reduzindo a latência e elevando o teto de IOPS por core de CPU dedicado ao I/O.
  • vNUMA e Localidade para Monster VMs: Para máquinas virtuais de grande porte, o AHV automatiza a exposição da topologia NUMA física para o sistema operacional convidado (vNUMA). Isso garante que o agendamento de threads e a alocação de memória RAM ocorram dentro do mesmo processador físico. A lógica visa evitar o acesso a bancos de memória remotos através dos barramentos da placa-mãe, mantendo a previsibilidade em bancos de dados pesados.
  • Otimizações no Plano de Dados da Rede (OVS): A sessão detalhou a evolução do Open vSwitch (OVS) dentro do AHV. O foco foi o desvio do processamento de pacotes para threads dedicadas e o uso de offloads de hardware para protocolos de encapsulamento. Essas otimizações reduzem o consumo de CPU exigido pela rede virtualizada, garantindo que a vazão não concorra diretamente com o processamento das aplicações.
  • Escalonamento Flexível de vCPUs: Diferente de hipervisores que exigem que todos os vCPUs de uma VM tenham núcleos físicos livres simultaneamente, o AHV utiliza um algoritmo mais flexível. Essa abordagem minimiza o CPU Steal e permite uma densidade maior de workloads, evitando picos de latência causados por agendamentos ineficientes em hosts consolidados.
  • Eficiência de Memória com HugePages: O uso de HugePages (páginas de 2MB em vez do padrão de 4KB) foi destacado como fundamental para aplicações com grandes conjuntos de dados na RAM, como o SAP HANA. A configuração reduz a sobrecarga de tradução de endereços de memória, permitindo que a CPU gaste menos ciclos na gestão interna e mais na execução das instruções da aplicação.

A conclusão desta análise prova que a eficiência do AHV não depende de ajustes manuais constantes, mas de um design interno que reduz as camadas de abstração. Ao priorizar a localidade NUMA, otimizar o stack de rede e implementar o I/O Turbo, o AHV consolida-se como um hypervisor capaz de sustentar cargas de missão crítica com altíssima performance.

No próximo artigo dessa série. O destaque absoluto foi uma quebra de padrão: tivemos duas sessões entregues inteiramente em português, focadas no cenário brasileiro. Em agendas globais dominadas pelo mercado norte americano, essa atenção direta é rara e surpreendente.

A pauta foi o Nutanix AI (NAI) e como a plataforma preparou a infraestrutura para que as empresas rodem seus próprios modelos de linguagem (LLMs). Na atual “corrida do ouro” da inteligência artificial, a Nutanix escolheu vender a pá. O foco é dar ao negócio o poder de escolher onde processar a inferência, garantindo soberania de dados, resiliência e alta disponibilidade.

O mercado ainda está inebriado com o uso de inteligências artificiais públicas, mas prepare-se: a conta do consumo de tokens vai chegar. Quando o custo financeiro da inferência externa começar a impactar os balanços corporativos, rodar IA na própria infraestrutura deixará de ser apenas uma questão de privacidade e passará a ser uma exigência financeira. É exatamente onde o NAI entra no jogo. Detalharemos essa arquitetura no próximo texto.

Leave a comment