Como Economizar 50% em GPU Cloud com Spot Instances

Introducao

Spot instances (ou instancias interruptiveis) sao a forma mais rapida de cortar seus gastos com GPU cloud pela metade. Voce usa a mesma GPU, com a mesma performance, mas paga 40-60% menos. O unico risco e a possibilidade de interrupcao -- e neste guia mostramos como minimizar esse risco.

O Que Sao Spot Instances?

Spot instances sao capacidade ociosa de GPU que provedores vendem com desconto. Quando a demanda aumenta, sua instancia pode ser interrompida (desligada). Na pratica, interrupcoes sao raras -- a maioria das sessoes completa sem problemas.

Precos Spot vs On-Demand (Marco 2026)

|-----|----------|------|----------|

| H100 80GB (RunPod) | $2.49/hr | $1.49/hr | 40% |

| A100 80GB (Vast.ai) | $1.69/hr | $0.89/hr | 47% |

| A100 80GB (RunPod) | $1.89/hr | $1.09/hr | 42% |

| RTX 4090 (Vast.ai) | $0.39/hr | $0.19/hr | 51% |

| RTX 4090 (RunPod) | $0.44/hr | $0.24/hr | 45% |

| A100 80GB (AWS) | $2.79/hr | $1.12/hr | 60% |

Como Usar Spot em Cada Provedor

RunPod

1. Ao criar um pod, selecione "Spot" em vez de "On-Demand"

2. Seu pod pode ser interrompido com 5 segundos de aviso

3. Dica: Use Community Cloud + Spot para o menor preco

Vast.ai

1. Na busca de GPUs, marque "Interruptible"

2. Filtre por preco e reliability

3. Aviso de interrupcao varia por host (0s a 5min)

AWS

1. Use Spot Instance Requests no EC2

2. Configure Spot Fleet para multi-instancia

3. Aviso de interrupcao: 2 minutos

4. Melhor economia entre os hyperscalers (ate 70%)

A Chave: Checkpointing

O segredo para usar spot instances com seguranca e salvar o progresso regularmente.

Checkpoint com Hugging Face Transformers

```python

from transformers import TrainingArguments

args = TrainingArguments(

output_dir="/workspace/volume/checkpoints", # Storage persistente!

save_strategy="steps",

save_steps=300, # Salvar a cada 300 steps

save_total_limit=3, # Manter ultimos 3 checkpoints

resume_from_checkpoint=True, # Auto-resume

bf16=True,

)

```

Checkpoint com PyTorch Puro

```python

import torch

def save_checkpoint(model, optimizer, epoch, step, path):

torch.save({

'epoch': epoch,

'step': step,

'model_state_dict': model.state_dict(),

'optimizer_state_dict': optimizer.state_dict(),

}, path)

def load_checkpoint(model, optimizer, path):

checkpoint = torch.load(path)

model.load_state_dict(checkpoint['model_state_dict'])

optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

return checkpoint['epoch'], checkpoint['step']

Salvar a cada 500 steps

if step % 500 == 0:

save_checkpoint(model, optimizer, epoch, step,

f"/workspace/volume/checkpoint_{step}.pt")

```

Script de Auto-Resume

Crie um script que automaticamente retoma do ultimo checkpoint:

```bash

#!/bin/bash

auto_resume.sh

CHECKPOINT_DIR="/workspace/volume/checkpoints"

LATEST=$(ls -t $CHECKPOINT_DIR/checkpoint-* 2>/dev/null | head -1)

if [ -n "$LATEST" ]; then

echo "Resumindo de: $LATEST"

python train.py --resume_from_checkpoint $LATEST

else

echo "Iniciando treinamento do zero"

python train.py

```

Storage Persistente: Essencial para Spot

Nunca salve checkpoints no disco local da instancia! Use storage persistente:

| Provedor | Storage Persistente | Custo |

|----------|-------------------|-------|

| RunPod | Network Volumes | $0.10/GB/mes |

| Vast.ai | (use S3 externo) | $0.02/GB/mes (Backblaze B2) |

| AWS | EBS ou S3 | $0.08-0.10/GB/mes |

Quanto Voce Realmente Economiza?

Cenario 1: Fine-tuning LLaMA 3 8B (QLoRA, 4 horas)

|------|----------|-----|-------|

| On-demand | RunPod | RTX 4090 | $1.76 |

| Spot | RunPod | RTX 4090 | $0.96 |

| Spot | Vast.ai | RTX 4090 | $0.76 |

| **Economia max:** | | | **57%** |

Cenario 2: Treinamento pesado (A100, 48 horas)

|------|----------|-----|-------|

| On-demand | RunPod | A100 80GB | $90.72 |

| Spot | RunPod | A100 80GB | $52.32 |

| Spot | Vast.ai | A100 80GB | $42.72 |

| **Economia max:** | | | **53%** |

Cenario 3: Uso mensal (160 hrs, A100 80GB)

| Tipo | Provedor | Custo Mensal |

|------|----------|-------------|

| On-demand | AWS | $446 |

| On-demand | RunPod | $302 |

| Spot | Vast.ai | $142 |

| **Economia max:** | | **68%** |

Quando NAO Usar Spot

Inferencia em producao: -- interrupcao = downtime para usuarios

Demos para clientes: -- nao pode falhar no meio

Deadlines apertados: -- risco de perder tempo se interrompido

Servicos 24/7: -- use on-demand ou reserved

Dicas Avancadas

Combine spot com auto-scaling:: Use ferramentas como SkyPilot para migrar automaticamente entre provedores quando interrompido

Treine de madrugada (horario US):: Menos demanda = menos interrupcoes

Monitore precos:: Spot prices flutuam; compare antes de iniciar

Tenha plano B:: Saiba o custo on-demand caso spot nao esteja disponivel

Salve checkpoints em S3/B2:: Storage externo sobrevive a qualquer interrupcao

Conclusao

Spot instances sao a maneira mais facil de economizar em GPU cloud. Com checkpointing adequado, o risco e minimo e a economia e real -- 40-60% em cada sessao. Comece usando spot para todos os seus treinamentos e veja sua conta cair pela metade.

Comparar precos spot agora --> →

Como Economizar 50% em GPU Cloud com Spot Instances

Como Economizar 50% em GPU Cloud com Spot Instances

Introducao

O Que Sao Spot Instances?

Precos Spot vs On-Demand (Marco 2026)

Como Usar Spot em Cada Provedor

RunPod

Vast.ai

AWS

A Chave: Checkpointing

Checkpoint com Hugging Face Transformers

Checkpoint com PyTorch Puro

Salvar a cada 500 steps

Script de Auto-Resume

auto_resume.sh

Storage Persistente: Essencial para Spot

Quanto Voce Realmente Economiza?

Cenario 1: Fine-tuning LLaMA 3 8B (QLoRA, 4 horas)

Cenario 2: Treinamento pesado (A100, 48 horas)

Cenario 3: Uso mensal (160 hrs, A100 80GB)

Quando NAO Usar Spot

Dicas Avancadas

Conclusao

Prêt à économiser ?

Articles Connexes

Como Treinar IA Gastando Pouco na Nuvem

7 Dicas para Encontrar GPU Cloud Barato em 2026

Spot Instances para GPU Cloud: Vale a Pena?