26 Ago 2025 3 min read

Domine o Horizontal Pod Autoscaler (HPA) no Kubernetes: Guia Completo para Escalonamento Automático e Otimização de Recursos

O que é o Horizontal Pod Autoscaler (HPA)?

O Horizontal Pod Autoscaler é um recurso nativo do Kubernetes responsável por ajustar automaticamente o número de réplicas de um Deployment, ReplicaSet ou StatefulSet com base em métricas observadas, como uso de CPU, memória ou métricas customizadas. Seu principal objetivo é garantir que a aplicação mantenha um desempenho ideal e alta disponibilidade conforme a demanda varia.

Como funciona o HPA?

Coleta de métricas: O HPA realiza consultas regulares às métricas dos pods-alvo, geralmente por meio do Metrics Server, que agrega dados de uso de CPU e memória. Esse componente é fundamental para o funcionamento do HPA, pois atua como um agregador e API para métricas internas do cluster.
Comparação com a meta desejada: As métricas coletadas são comparadas com valores-alvo definidos no objeto HPA, como uma porcentagem de utilização de CPU específica.
Cálculo do número ideal de réplicas: Com base numa fórmula interna, o HPA determina quantos pods são necessários para manter o desempenho dentro do target estabelecido.Por exemplo: se a média atual de CPU está em 80% e o alvo definido é 40%, o HPA aumentará o número de pods para distribuir melhor a carga.
Escalonamento automático: O Kubernetes realiza o ajuste do número de réplicas, seja aumentando (scale up) ou reduzindo (scale down), no Deployment ou ReplicaSet correspondente.

Exemplo de manifesto HPA básico

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: hpa-exemplo
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: minha-app
  minReplicas: 2
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 50

Neste exemplo, o HPA ajusta a quantidade de pods entre 2 e 10, mantendo a CPU média em cerca de 50% de utilização.

Vantagens do HPA

Escalonamento automático: Ajusta os recursos da aplicação de acordo com a demanda, evitando tanto desperdício quanto falta de capacidade.
Melhora a disponibilidade: Garante que a aplicação continue responsiva mesmo durante picos inesperados de carga.
Integração nativa: Funciona perfeitamente com Deployments, ReplicaSets e StatefulSets.
Configuração flexível: Permite usar métricas padrão (CPU, memória) ou métricas customizadas via API.
Redução de custos: Evita alocação de recursos ociosos durante períodos de baixa demanda.

Desvantagens e limitações do HPA

Dependência do Metrics Server: Requer métricas atualizadas e confiáveis para operar corretamente. Falhas na coleta podem comprometer o escalonamento.
Latência no escalonamento: O ajuste ocorre em intervalos periódicos (padrão a cada 15 segundos), o que pode causar atraso em mudanças abruptas de carga.
Escalonamento horizontal somente: Aumenta ou diminui a quantidade de pods, mas não a capacidade individual deles. Para isso, existe o Vertical Pod Autoscaler (VPA).
Cobertura limitada para tipos específicos de carga: Pode ser necessário implementar métricas personalizadas para controlar escalonamento em certas aplicações.
Configurações inadequadas podem afetar estabilidade: Valores incorretos em limites mínimos e máximos podem levar a escalonamentos insuficientes ou excessivos, impactando desempenho e custos.

Por que usar o HPA?

Para ajustar a escala automaticamente conforme a carga de trabalho varia, eliminando intervenção manual.
Para melhorar a experiência do usuário, assegurando que a aplicação permaneça responsiva em picos de demanda.
Para otimizar o uso dos recursos do cluster, evitando gastos desnecessários.
Para integrar escalonamento em pipelines de CI/CD e ambientes dinâmicos com cargas variáveis.

Tipos de limites e configurações que podemos usar no HPA

1. `minReplicas` e `maxReplicas`

Definem, respectivamente, o número mínimo e máximo de réplicas que o HPA pode criar.
Evitar escalonamento excessivo ou redução que possa afetar a disponibilidade.

2. Métricas padrão (Resource Metrics)

CPU (cpu.utilization)
Memória (memory.usage)

Essas métricas avaliam a utilização média entre as réplicas para decisão de escalonamento.

3. Métricas customizadas (Custom Metrics)

Métricas específicas da aplicação, como número de requisições, latência ou tamanho de fila, expostas via API.
Requerem integração com ferramentas de monitoramento, como Prometheus, e adaptadores para Kubernetes.

4. Métricas externas (External Metrics)

Métricas provenientes de fontes externas ao cluster, usadas para decisões de escalonamento baseadas em dados externos.

5. Escalonamento baseado em múltiplas métricas

É possível especificar várias métricas simultaneamente, onde o HPA utiliza a métrica mais restritiva para ajustar a escala, aumentando a precisão do escalonamento e adequando melhor os recursos às necessidades da aplicação.

6. Comportamentos de escalonamento (Scaling Behavior)

Desde o Kubernetes 1.18, é possível definir políticas para limitar a taxa de crescimento e redução dos pods, além de aplicar delays para evitar escalonamento oscilatório.

Exemplo de configuração de comportamento:

behavior:
  scaleUp:
    stabilizationWindowSeconds: 60
    policies:
      - type: Percent
        value: 100
        periodSeconds: 60
  scaleDown:
    stabilizationWindowSeconds: 300
    policies:
      - type: Pods
        value: 2
        periodSeconds: 300

Conclusão

O Horizontal Pod Autoscaler (HPA) é uma ferramenta essencial para garantir a escalabilidade e a resiliência das aplicações no Kubernetes. Ao controlar automaticamente a quantidade de pods com base em métricas relevantes, o HPA equilibra desempenho e eficiência no uso dos recursos do cluster.

Para tirar o máximo proveito do HPA, é fundamental compreender suas limitações e realizar configurações adequadas, definindo corretamente os limites de réplicas, selecionando métricas apropriadas e aplicando políticas de estabilidade. Isso assegura que as aplicações permaneçam estáveis, responsivas e otimizadas.

Caso precise, posso ajudar a criar exemplos específicos de HPA, integrar métricas customizadas ou configurar políticas detalhadas de escalonamento para seu ambiente. Não hesite em entrar em contato para otimizar seus deployments no Kubernetes.