Skip to main content
Back to blog
Dicas

Como Economizar 50% em GPU Cloud com Spot Instances

3/4/2026
11 min read

Como Economizar 50% em GPU Cloud com Spot Instances

Introducao

Spot instances (ou instancias interruptiveis) sao a forma mais rapida de cortar seus gastos com GPU cloud pela metade. Voce usa a mesma GPU, com a mesma performance, mas paga 40-60% menos. O unico risco e a possibilidade de interrupcao -- e neste guia mostramos como minimizar esse risco.

O Que Sao Spot Instances?

Spot instances sao capacidade ociosa de GPU que provedores vendem com desconto. Quando a demanda aumenta, sua instancia pode ser interrompida (desligada). Na pratica, interrupcoes sao raras -- a maioria das sessoes completa sem problemas.

Precos Spot vs On-Demand (Marco 2026)

| GPU | On-Demand | Spot | Economia |

|-----|----------|------|----------|

| H100 80GB (RunPod) | $2.49/hr | $1.49/hr | 40% |

| A100 80GB (Vast.ai) | $1.69/hr | $0.89/hr | 47% |

| A100 80GB (RunPod) | $1.89/hr | $1.09/hr | 42% |

| RTX 4090 (Vast.ai) | $0.39/hr | $0.19/hr | 51% |

| RTX 4090 (RunPod) | $0.44/hr | $0.24/hr | 45% |

| A100 80GB (AWS) | $2.79/hr | $1.12/hr | 60% |

Como Usar Spot em Cada Provedor

RunPod

1. Ao criar um pod, selecione "Spot" em vez de "On-Demand"

2. Seu pod pode ser interrompido com 5 segundos de aviso

3. Dica: Use Community Cloud + Spot para o menor preco

Vast.ai

1. Na busca de GPUs, marque "Interruptible"

2. Filtre por preco e reliability

3. Aviso de interrupcao varia por host (0s a 5min)

AWS

1. Use Spot Instance Requests no EC2

2. Configure Spot Fleet para multi-instancia

3. Aviso de interrupcao: 2 minutos

4. Melhor economia entre os hyperscalers (ate 70%)

A Chave: Checkpointing

O segredo para usar spot instances com seguranca e salvar o progresso regularmente.

Checkpoint com Hugging Face Transformers

```python

from transformers import TrainingArguments

args = TrainingArguments(

output_dir="/workspace/volume/checkpoints", # Storage persistente!

save_strategy="steps",

save_steps=300, # Salvar a cada 300 steps

save_total_limit=3, # Manter ultimos 3 checkpoints

resume_from_checkpoint=True, # Auto-resume

bf16=True,

)

```

Checkpoint com PyTorch Puro

```python

import torch

def save_checkpoint(model, optimizer, epoch, step, path):

torch.save({

'epoch': epoch,

'step': step,

'model_state_dict': model.state_dict(),

'optimizer_state_dict': optimizer.state_dict(),

}, path)

def load_checkpoint(model, optimizer, path):

checkpoint = torch.load(path)

model.load_state_dict(checkpoint['model_state_dict'])

optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

return checkpoint['epoch'], checkpoint['step']

Salvar a cada 500 steps

if step % 500 == 0:

save_checkpoint(model, optimizer, epoch, step,

f"/workspace/volume/checkpoint_{step}.pt")

```

Script de Auto-Resume

Crie um script que automaticamente retoma do ultimo checkpoint:

```bash

#!/bin/bash

auto_resume.sh

CHECKPOINT_DIR="/workspace/volume/checkpoints"

LATEST=$(ls -t $CHECKPOINT_DIR/checkpoint-* 2>/dev/null | head -1)

if [ -n "$LATEST" ]; then

echo "Resumindo de: $LATEST"

python train.py --resume_from_checkpoint $LATEST

else

echo "Iniciando treinamento do zero"

python train.py

fi

```

Storage Persistente: Essencial para Spot

Nunca salve checkpoints no disco local da instancia! Use storage persistente:

| Provedor | Storage Persistente | Custo |

|----------|-------------------|-------|

| RunPod | Network Volumes | $0.10/GB/mes |

| Vast.ai | (use S3 externo) | $0.02/GB/mes (Backblaze B2) |

| AWS | EBS ou S3 | $0.08-0.10/GB/mes |

Quanto Voce Realmente Economiza?

Cenario 1: Fine-tuning LLaMA 3 8B (QLoRA, 4 horas)

| Tipo | Provedor | GPU | Custo |

|------|----------|-----|-------|

| On-demand | RunPod | RTX 4090 | $1.76 |

| Spot | RunPod | RTX 4090 | $0.96 |

| Spot | Vast.ai | RTX 4090 | $0.76 |

| **Economia max:** | | | **57%** |

Cenario 2: Treinamento pesado (A100, 48 horas)

| Tipo | Provedor | GPU | Custo |

|------|----------|-----|-------|

| On-demand | RunPod | A100 80GB | $90.72 |

| Spot | RunPod | A100 80GB | $52.32 |

| Spot | Vast.ai | A100 80GB | $42.72 |

| **Economia max:** | | | **53%** |

Cenario 3: Uso mensal (160 hrs, A100 80GB)

| Tipo | Provedor | Custo Mensal |

|------|----------|-------------|

| On-demand | AWS | $446 |

| On-demand | RunPod | $302 |

| Spot | Vast.ai | $142 |

| **Economia max:** | | **68%** |

Quando NAO Usar Spot

  • Inferencia em producao: -- interrupcao = downtime para usuarios
  • Demos para clientes: -- nao pode falhar no meio
  • Deadlines apertados: -- risco de perder tempo se interrompido
  • Servicos 24/7: -- use on-demand ou reserved
  • Dicas Avancadas

    Combine spot com auto-scaling:: Use ferramentas como SkyPilot para migrar automaticamente entre provedores quando interrompido

    Treine de madrugada (horario US):: Menos demanda = menos interrupcoes

    Monitore precos:: Spot prices flutuam; compare antes de iniciar

    Tenha plano B:: Saiba o custo on-demand caso spot nao esteja disponivel

    Salve checkpoints em S3/B2:: Storage externo sobrevive a qualquer interrupcao

    Conclusao

    Spot instances sao a maneira mais facil de economizar em GPU cloud. Com checkpointing adequado, o risco e minimo e a economia e real -- 40-60% em cada sessao. Comece usando spot para todos os seus treinamentos e veja sua conta cair pela metade.

    Comparar precos spot agora -->

    LF

    Lucas Ferreira

    Senior AI Engineer

    Ex-NVIDIA, spent 3 years benchmarking data center GPUs. Now helps teams pick the right hardware for their ML workloads. Ran inference benchmarks on every GPU generation since Volta.

    GPU BenchmarksInference OptimizationCUDAHardware

    Ready to save?

    Compare GPU cloud prices and find the best provider for your use case.

    Start Comparing

    Related Articles

    Dicas

    Como Treinar IA Gastando Pouco na Nuvem

    Aprenda tecnicas praticas para reduzir custos de treinamento de modelos de IA na nuvem. De spot instances a QLoRA, economize ate 90% nos seus gastos.

    3/15/202611 min
    Read More
    Dicas

    7 Dicas para Encontrar GPU Cloud Barato em 2026

    Depois de gastar (e desperdiçar) bastante com GPU cloud, compilei as estratégias que realmente cortam custo. Algumas são óbvias, outras nem tanto.

    2/15/20265 min
    Read More
    Dicas

    Spot Instances para GPU Cloud: Vale a Pena?

    Entenda como funcionam spot instances e como economizar até 60% em GPU cloud.

    1/28/20267 min
    Read More