Nutanix Resiliência Self Healing– Auto cura

A Nutanix tem uma série de capacidades de auto-recuperação criticamente importantes e únicas que diferenciam a plataforma não apenas das matrizes tradicionais DE SAN/NAS, mas de outros produtos HCI.

O Nutanix pode se autoacorrer totalmente automaticamente não apenas da perda de dispositivos SSDs/HDDs/NVMe e falha/s do nó, mas também recuperar totalmente a pilha de gerenciamento (PRISM) sem a intervenção do usuário.

Primeiro vamos passar pela auto-cura dos dados da falha/s do dispositivo/nó.

Vamos fazer uma comparação simples entre um SAN controlador duplo tradicional e o cluster Nutanix tamanho* médio de oito nós.

*A média é calculada por número de clientes que dividem globalmente o total de nós vendidos.

No caso de uma única falha no controlador de armazenamento, o SAN/NAS fica sem resiliência e fica à mercê do contrato de nível de serviço (SLA) com o fornecedor para substituir o componente antes que a resiliência (e, em muitos casos, o desempenho) possa ser restaurado.

Compare isso com o Nutanix, e apenas um dos oito controladores de armazenamento (ou 12,5%) estão offline, deixando sete para continuar servindo as cargas de trabalho e restaurar automaticamente a resiliência, normalmente em apenas alguns minutos como já demonstramos anteriormente.

Fico feliz que tenha perguntado, mesmo um aglomerado de quatro nós pode sofrer uma falha no nó e totalmente se Auto Curar em um aglomerado de três nós resiliente sem substituição de HW ou intervenção humana.

O único cenário em que um ambiente Nutanix não pode se auto-curar totalmente a um estado onde outra falha de nó pode ser tolerada sem tempo de inatividade é um cluster de três nós. Mas, em um cluster de três nós, uma falha de nó pode ser tolerada e os dados serão re-protegidos e o cluster continuará a funcionar com apenas dois nós, mas uma falha subsequente resultaria em tempo de inatividade, mas criticamente nenhuma perda de dados ocorreria.

Criticamente, falhas de unidade ainda podem ser toleradas em um estado degradado onde apenas dois nós estão sendo executados.

Nota: No caso de uma falha de nó em um cluster vSAN de três nós, os dados não são re-protegidos e permanecem em risco até que o nó seja substituído e a reconstrução esteja completa.

O único pré-requisito para que a Nutanix seja capaz de realizar a auto-cura completa dos dados (e até mesmo a pilha de gerenciamento, PRISM) é que exista capacidade suficiente dentro do cluster. Quanta capacidade você pede, recomendo N-1 para configurações RF2, ou N+2 para configurações RF3 assumindo duas falhas simultâneas orone seguidas de uma falha subsequente.

Assim, o pior cenário para o cluster de tamanho mínimo seria de 33% para RF2 e 40% para um cluster RF3 de cinco nós. No entanto, antes que os concorrentes romam o Medo, Incerteza e Dúvida (FUD), vamos ver quanta capacidade é necessária para a auto-cura à medida que os tamanhos do cluster aumentam.

A tabela a seguir mostra a porcentagem de capacidade necessária para auto-cura total com base em N+1 e N+2 para tamanhos de cluster de até 32 nós.

Nota: Esses valores assumem o pior cenário de que todos os nós estão com 100% de capacidade, então no mundo real a sobrecarga será menor do que a tabela indica.

Como podemos ver, para um cluster de tamanho médio (oito nós), o espaço livre necessário é de apenas 13% (arredondado de 12,5%).

Se pegarmos N+2 para um cluster de oito nós, o espaço livre MÁXIMO necessário para tolerar duas falhas de nó e uma reconstrução completa para um estado resiliente ainda é de apenas 25%.

É importante notar que graças ao Nutanix Distributed Storage Fabric (ADSF), o espaço livre não precisa contabilizar objetos grandes (por exemplo: 256GB) já que a Nutanix usa extensões de 1MB que são distribuídas uniformemente por todo o cluster, portanto não há espaço desperdiçado devido à fragmentação ao contrário de plataformas menos avançadas.

Nota: O tamanho dos nós no cluster não afeta a capacidade necessária para uma reconstrução.

Algumas vantagens que a ADSF tem sobre outras plataformas é que a Nutanix não tem o conceito de "unidade de cache" ou a construção de "grupos de disco".

O uso de grupos de disco é um alto risco para a resiliência, pois uma única falha de unidade "cache" pode levar um grupo inteiro de disco (composto por várias unidades) offline forçando uma operação de reconstrução muito mais intensiva do que é necessário. Uma única falha de unidade no ADSF é apenas isso, uma única falha de unidade e apenas os dados dessa unidade precisam ser reconstruídos, o que é feito de forma distribuída eficiente (ou seja: uma operação "Muitos para Muitos" em oposição a um "Um para Um" como outros produtos).

A única vez em que uma única falha de unidade causa um problema no Nutanix é com sistemas SSD únicos em que é o equivalente a uma falha de nó, mas para ser claro isso não é uma limitação do ADSF, apenas o da especificação de hardware escolhida.

Para ambientes de produção, não recomendo o uso de sistemas SSD únicos, pois as vantagens de Resiliência superam o custo adicional mínimo de um sistema SSD duplo.

Ponto interessante: vSAN é sem dúvida sempre um único sistema SSD, uma vez que um "grupo Disk" tem apenas uma "unidade de cache" tornando-o um único ponto de falha.

Para conhecer no detalhe o Nutanix Self Healing entre em contato com a nossa equipe através do site https://www.asg.com.br ou encaminhe um e-mail para contato@asg.com.br

ASG

Nutanix Resiliência Self Healing– Auto cura

Posts recentes

Kommentare