O Que é Auto-Scaling?
Auto-scaling ajusta automaticamente a quantidade de recursos (VMs, containers, GPUs) com base na demanda real. Pico de tráfego? Mais servidores. Madrugada sem acessos? Menos servidores (ou zero).
Tipos de Scaling
Scale-Up (Vertical)
Aumentar recursos de uma única máquina: mais CPU, mais RAM. Simples mas tem limite físico.
Scale-Out (Horizontal)
Adicionar mais máquinas ao pool. Mais complexo mas virtualmente ilimitado.
Scale-to-Zero
Desligar tudo quando não há demanda. Ideal para ambientes de dev, APIs com tráfego intermitente e batch jobs.
Métricas de Trigger
- CPU: Se média > 70%, adicione uma instância.
- Memória: Se uso > 80%, escale.
- Requests/s: Se > 1000 req/s por instância, adicione mais.
- Queue depth: Se fila > 100 mensagens, adicione workers.
- Custom: Qualquer métrica via Prometheus ou CloudWatch.
Na Prática
Um e-commerce que normalmente roda com 3 servidores pode escalar para 20 durante uma promoção relâmpago e voltar para 3 quando o pico passar. Você paga apenas pelas horas extras.
Conclusão
Auto-scaling é a essência do cloud computing: pagar pelo que usa, escalar quando precisa, economizar quando não precisa.
Nenhum comentário ainda. Seja o primeiro a comentar!