Spot Instances de GPU Cloud: Vale a Pena o Risco?
Spot Instances de GPU Cloud: Vale a Pena o Risco?
O Que São Spot Instances?
Spot instances (ou instâncias preemptíveis) são GPUs disponibilizadas a preços reduzidos quando há capacidade ociosa na plataforma. Em troca do desconto, você aceita que a instância pode ser interrompida com pouco aviso.
**Economia típica: 40–70% comparado a instâncias dedicadas.**
Como Funcionam nas Principais Plataformas
RunPod — Community Cloud
O RunPod divide sua oferta em dois tiers:
O Community Cloud funciona como spot instances na prática. GPUs como RTX 4090 saem a **$0,28–0,35/hora** vs $0,44 no Secure Cloud.
**Risco de interrupção:** baixo a médio. A maioria das instâncias dura horas ou dias.
Vast.ai
O Vast.ai é inteiramente um marketplace de hardware de terceiros. Toda instância é, por natureza, preemptível se o host desligar o servidor.
Vast.ai mostra o **"reliability score"** de cada host — filtre por hosts acima de 95% para minimizar interrupções.
Quando Interrupções Acontecem?
1. O host precisa da GPU para uso próprio
2. Manutenção de hardware
3. Queda de energia ou conectividade
4. Outro cliente paga mais (em alguns modelos de leilão)
**Frequência real:** com hosts bem avaliados no Vast.ai, interrupções ocorrem em menos de 5% das sessões de treinamento de 8 horas.
Como Implementar Checkpointing com PyTorch
A chave para usar spot instances com segurança é salvar checkpoints regularmente:
```python
import torch
import os
def save_checkpoint(model, optimizer, epoch, loss, path="checkpoint.pt"):
torch.save({
'epoch': epoch,
'model_state_dict': model.state_dict(),
'optimizer_state_dict': optimizer.state_dict(),
'loss': loss,
}, path)
def load_checkpoint(model, optimizer, path="checkpoint.pt"):
if os.path.exists(path):
checkpoint = torch.load(path)
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
return checkpoint['epoch'], checkpoint['loss']
return 0, None
No loop de treinamento:
for epoch in range(start_epoch, total_epochs):
train_one_epoch(model, dataloader, optimizer)
if epoch % 5 == 0: # salva a cada 5 epochs
save_checkpoint(model, optimizer, epoch, loss)
```
**Dica:** Salve em armazenamento persistente (RunPod Network Volume ou AWS S3), não no disco local da instância.
Análise Real de Economia
Treinamento de LLaMA 3 8B por 500 horas de GPU:
| Tipo | Preço/hora | Total |
|---|---|---|
| RunPod Secure (A100) | $1,89 | $945 |
| RunPod Community (A100) | $1,19 | $595 |
| Vast.ai A100 (host top) | $0,98 | $490 |
**Economia com spot: ~48% no exemplo acima.**
Estratégia Recomendada
Use spot para treinamento longo: (horas/dias) com checkpointing a cada 30 min
Use instâncias dedicadas para inferência: em produção
Prefira hosts com score >95%: no Vast.ai
Mantenha dados no armazenamento persistente: , nunca no disco efêmero
Conclusão
Spot instances são uma excelente escolha para treinamento de modelos quando combinadas com checkpointing adequado. Com uma implementação simples, você economiza 40–60% sem risco real de perder progresso.
Related Articles
Melhor GPU Cloud para Brasileiros em 2026
Guia completo para brasileiros que querem usar GPU na nuvem. Comparamos precos, latencia, formas de pagamento e suporte em portugues.
Inferência de LLMs na Nuvem: Guia Completo 2026
vLLM, Ollama ou llama.cpp? GPU certa por tamanho de modelo, custo por 1M tokens, serverless vs dedicado e como configurar RunPod Serverless para produção.
Quanto Custa Rodar um Modelo de IA na Nuvem?
Descubra o custo real de rodar modelos de IA na nuvem. Calculamos precos para treinamento, fine-tuning e inferencia dos modelos mais populares.