Como Economizar 50% em GPU Cloud com Spot Instances
Como Economizar 50% em GPU Cloud com Spot Instances
Introducao
Spot instances (ou instancias interruptiveis) sao a forma mais rapida de cortar seus gastos com GPU cloud pela metade. Voce usa a mesma GPU, com a mesma performance, mas paga 40-60% menos. O unico risco e a possibilidade de interrupcao -- e neste guia mostramos como minimizar esse risco.
O Que Sao Spot Instances?
Spot instances sao capacidade ociosa de GPU que provedores vendem com desconto. Quando a demanda aumenta, sua instancia pode ser interrompida (desligada). Na pratica, interrupcoes sao raras -- a maioria das sessoes completa sem problemas.
Precos Spot vs On-Demand (Marco 2026)
| GPU | On-Demand | Spot | Economia |
|-----|----------|------|----------|
| H100 80GB (RunPod) | $2.49/hr | $1.49/hr | 40% |
| A100 80GB (Vast.ai) | $1.69/hr | $0.89/hr | 47% |
| A100 80GB (RunPod) | $1.89/hr | $1.09/hr | 42% |
| RTX 4090 (Vast.ai) | $0.39/hr | $0.19/hr | 51% |
| RTX 4090 (RunPod) | $0.44/hr | $0.24/hr | 45% |
| A100 80GB (AWS) | $2.79/hr | $1.12/hr | 60% |
Como Usar Spot em Cada Provedor
RunPod
1. Ao criar um pod, selecione "Spot" em vez de "On-Demand"
2. Seu pod pode ser interrompido com 5 segundos de aviso
3. Dica: Use Community Cloud + Spot para o menor preco
Vast.ai
1. Na busca de GPUs, marque "Interruptible"
2. Filtre por preco e reliability
3. Aviso de interrupcao varia por host (0s a 5min)
AWS
1. Use Spot Instance Requests no EC2
2. Configure Spot Fleet para multi-instancia
3. Aviso de interrupcao: 2 minutos
4. Melhor economia entre os hyperscalers (ate 70%)
A Chave: Checkpointing
O segredo para usar spot instances com seguranca e salvar o progresso regularmente.
Checkpoint com Hugging Face Transformers
```python
from transformers import TrainingArguments
args = TrainingArguments(
output_dir="/workspace/volume/checkpoints", # Storage persistente!
save_strategy="steps",
save_steps=300, # Salvar a cada 300 steps
save_total_limit=3, # Manter ultimos 3 checkpoints
resume_from_checkpoint=True, # Auto-resume
bf16=True,
)
```
Checkpoint com PyTorch Puro
```python
import torch
def save_checkpoint(model, optimizer, epoch, step, path):
torch.save({
'epoch': epoch,
'step': step,
'model_state_dict': model.state_dict(),
'optimizer_state_dict': optimizer.state_dict(),
}, path)
def load_checkpoint(model, optimizer, path):
checkpoint = torch.load(path)
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
return checkpoint['epoch'], checkpoint['step']
Salvar a cada 500 steps
if step % 500 == 0:
save_checkpoint(model, optimizer, epoch, step,
f"/workspace/volume/checkpoint_{step}.pt")
```
Script de Auto-Resume
Crie um script que automaticamente retoma do ultimo checkpoint:
```bash
#!/bin/bash
auto_resume.sh
CHECKPOINT_DIR="/workspace/volume/checkpoints"
LATEST=$(ls -t $CHECKPOINT_DIR/checkpoint-* 2>/dev/null | head -1)
if [ -n "$LATEST" ]; then
echo "Resumindo de: $LATEST"
python train.py --resume_from_checkpoint $LATEST
else
echo "Iniciando treinamento do zero"
python train.py
fi
```
Storage Persistente: Essencial para Spot
Nunca salve checkpoints no disco local da instancia! Use storage persistente:
| Provedor | Storage Persistente | Custo |
|----------|-------------------|-------|
| RunPod | Network Volumes | $0.10/GB/mes |
| Vast.ai | (use S3 externo) | $0.02/GB/mes (Backblaze B2) |
| AWS | EBS ou S3 | $0.08-0.10/GB/mes |
Quanto Voce Realmente Economiza?
Cenario 1: Fine-tuning LLaMA 3 8B (QLoRA, 4 horas)
| Tipo | Provedor | GPU | Custo |
|------|----------|-----|-------|
| On-demand | RunPod | RTX 4090 | $1.76 |
| Spot | RunPod | RTX 4090 | $0.96 |
| Spot | Vast.ai | RTX 4090 | $0.76 |
| **Economia max:** | | | **57%** |
Cenario 2: Treinamento pesado (A100, 48 horas)
| Tipo | Provedor | GPU | Custo |
|------|----------|-----|-------|
| On-demand | RunPod | A100 80GB | $90.72 |
| Spot | RunPod | A100 80GB | $52.32 |
| Spot | Vast.ai | A100 80GB | $42.72 |
| **Economia max:** | | | **53%** |
Cenario 3: Uso mensal (160 hrs, A100 80GB)
| Tipo | Provedor | Custo Mensal |
|------|----------|-------------|
| On-demand | AWS | $446 |
| On-demand | RunPod | $302 |
| Spot | Vast.ai | $142 |
| **Economia max:** | | **68%** |
Quando NAO Usar Spot
Dicas Avancadas
Combine spot com auto-scaling:: Use ferramentas como SkyPilot para migrar automaticamente entre provedores quando interrompido
Treine de madrugada (horario US):: Menos demanda = menos interrupcoes
Monitore precos:: Spot prices flutuam; compare antes de iniciar
Tenha plano B:: Saiba o custo on-demand caso spot nao esteja disponivel
Salve checkpoints em S3/B2:: Storage externo sobrevive a qualquer interrupcao
Conclusao
Spot instances sao a maneira mais facil de economizar em GPU cloud. Com checkpointing adequado, o risco e minimo e a economia e real -- 40-60% em cada sessao. Comece usando spot para todos os seus treinamentos e veja sua conta cair pela metade.
Lucas Ferreira
Senior AI Engineer
Ex-NVIDIA, spent 3 years benchmarking data center GPUs. Now helps teams pick the right hardware for their ML workloads. Ran inference benchmarks on every GPU generation since Volta.
Prêt à économiser ?
Comparez les prix du GPU cloud et trouvez le meilleur fournisseur pour votre cas d'utilisation.
Commencer à ComparerArticles Connexes
Como Treinar IA Gastando Pouco na Nuvem
Aprenda tecnicas praticas para reduzir custos de treinamento de modelos de IA na nuvem. De spot instances a QLoRA, economize ate 90% nos seus gastos.
7 Dicas para Encontrar GPU Cloud Barato em 2026
Depois de gastar (e desperdiçar) bastante com GPU cloud, compilei as estratégias que realmente cortam custo. Algumas são óbvias, outras nem tanto.
Spot Instances para GPU Cloud: Vale a Pena?
Entenda como funcionam spot instances e como economizar até 60% em GPU cloud.