Back to blog
Guia

Spot Instances de GPU Cloud: Vale a Pena o Risco?

3/11/2026
6 min read

Spot Instances de GPU Cloud: Vale a Pena o Risco?

O Que São Spot Instances?

Spot instances (ou instâncias preemptíveis) são GPUs disponibilizadas a preços reduzidos quando há capacidade ociosa na plataforma. Em troca do desconto, você aceita que a instância pode ser interrompida com pouco aviso.

**Economia típica: 40–70% comparado a instâncias dedicadas.**

Como Funcionam nas Principais Plataformas

RunPod — Community Cloud

O RunPod divide sua oferta em dois tiers:

  • Secure Cloud:: datacenters próprios, mais estável, preço cheio
  • Community Cloud:: hardware de terceiros, mais barato, mais interrupções
  • O Community Cloud funciona como spot instances na prática. GPUs como RTX 4090 saem a **$0,28–0,35/hora** vs $0,44 no Secure Cloud.

    **Risco de interrupção:** baixo a médio. A maioria das instâncias dura horas ou dias.

    Vast.ai

    O Vast.ai é inteiramente um marketplace de hardware de terceiros. Toda instância é, por natureza, preemptível se o host desligar o servidor.

  • RTX 4090: a partir de **$0,20/hora**
  • H100 SXM: a partir de **$2,20/hora**
  • Vast.ai mostra o **"reliability score"** de cada host — filtre por hosts acima de 95% para minimizar interrupções.

    Quando Interrupções Acontecem?

    1. O host precisa da GPU para uso próprio

    2. Manutenção de hardware

    3. Queda de energia ou conectividade

    4. Outro cliente paga mais (em alguns modelos de leilão)

    **Frequência real:** com hosts bem avaliados no Vast.ai, interrupções ocorrem em menos de 5% das sessões de treinamento de 8 horas.

    Como Implementar Checkpointing com PyTorch

    A chave para usar spot instances com segurança é salvar checkpoints regularmente:

    ```python

    import torch

    import os

    def save_checkpoint(model, optimizer, epoch, loss, path="checkpoint.pt"):

    torch.save({

    'epoch': epoch,

    'model_state_dict': model.state_dict(),

    'optimizer_state_dict': optimizer.state_dict(),

    'loss': loss,

    }, path)

    def load_checkpoint(model, optimizer, path="checkpoint.pt"):

    if os.path.exists(path):

    checkpoint = torch.load(path)

    model.load_state_dict(checkpoint['model_state_dict'])

    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

    return checkpoint['epoch'], checkpoint['loss']

    return 0, None

    No loop de treinamento:

    for epoch in range(start_epoch, total_epochs):

    train_one_epoch(model, dataloader, optimizer)

    if epoch % 5 == 0: # salva a cada 5 epochs

    save_checkpoint(model, optimizer, epoch, loss)

    ```

    **Dica:** Salve em armazenamento persistente (RunPod Network Volume ou AWS S3), não no disco local da instância.

    Análise Real de Economia

    Treinamento de LLaMA 3 8B por 500 horas de GPU:

    | Tipo | Preço/hora | Total |

    |---|---|---|

    | RunPod Secure (A100) | $1,89 | $945 |

    | RunPod Community (A100) | $1,19 | $595 |

    | Vast.ai A100 (host top) | $0,98 | $490 |

    **Economia com spot: ~48% no exemplo acima.**

    Estratégia Recomendada

    Use spot para treinamento longo: (horas/dias) com checkpointing a cada 30 min

    Use instâncias dedicadas para inferência: em produção

    Prefira hosts com score >95%: no Vast.ai

    Mantenha dados no armazenamento persistente: , nunca no disco efêmero

    Conclusão

    Spot instances são uma excelente escolha para treinamento de modelos quando combinadas com checkpointing adequado. Com uma implementação simples, você economiza 40–60% sem risco real de perder progresso.

    Ver preços de spot instances agora →

    Ready to save?

    Compare GPU cloud prices and find the best provider for your use case.

    Start Comparing

    Related Articles

    Guia

    Melhor GPU Cloud para Brasileiros em 2026

    Guia completo para brasileiros que querem usar GPU na nuvem. Comparamos precos, latencia, formas de pagamento e suporte em portugues.

    3/16/202610 min
    Read More
    Guia

    Inferência de LLMs na Nuvem: Guia Completo 2026

    vLLM, Ollama ou llama.cpp? GPU certa por tamanho de modelo, custo por 1M tokens, serverless vs dedicado e como configurar RunPod Serverless para produção.

    3/12/20268 min
    Read More
    Guia

    Quanto Custa Rodar um Modelo de IA na Nuvem?

    Descubra o custo real de rodar modelos de IA na nuvem. Calculamos precos para treinamento, fine-tuning e inferencia dos modelos mais populares.

    3/9/202612 min
    Read More