Quanto Custa Treinar um LLM na Nuvem?

O elefante na sala

Todo mundo fala de treinar LLMs como se fosse simples. "Ah, é só alugar umas GPUs e rodar." Na prática, a conta chega rápido. Eu já queimei dinheiro em treinamentos que falharam no meio, em GPUs que ficaram ociosas porque meu pipeline de dados não dava conta, e em configurações de hiperparâmetro que se mostraram inúteis depois de horas rodando.

Nesse artigo eu vou ser realista sobre custos. Não vou jogar números teóricos — vou falar do que eu efetivamente gastei e do que vi colegas gastarem. A ideia é que você consiga planejar seu orçamento sem susto.

Uma coisa importante antes de começar: os preços de GPU cloud mudam constantemente. Os números específicos que eu menciono aqui são pra dar uma noção de ordem de grandeza, mas sempre confira os [preços atualizados na nossa página de comparação](/comparisons/h100-pricing) antes de tomar qualquer decisão.

Modelos pequenos (1-3B parâmetros)

Treinar um modelo de 1B do zero é mais acessível do que a maioria das pessoas imagina. Com uma RTX 4090, que tem 24GB de VRAM, dá pra rodar um treinamento completo em 24-48 horas dependendo do dataset e da arquitetura. A conta fica na casa de dezenas de dólares, não centenas.

Mas tem um porém: "do zero" pra um modelo de 1B significa que você precisa de um dataset grande e limpo. A preparação dos dados, na minha experiência, leva mais tempo (e às vezes mais dinheiro) do que o treinamento em si. Já gastei dias limpando e tokenizando dados, com a GPU parada esperando. Se você tá pagando por hora, isso dói no bolso.

Pra fine-tuning de modelos de 1-3B, a história é diferente. Com LoRA ou QLoRA, o custo cai drasticamente — a gente tá falando de poucas horas numa 4090. É por isso que eu sempre recomendo começar com fine-tuning antes de pensar em treinar do zero. A não ser que você tenha um caso de uso muito específico que justifique.

Modelos médios (7-13B parâmetros)

Aqui a brincadeira fica séria. Um modelo de 7B em full fine-tuning exige no mínimo uma A100 40GB, e idealmente uma A100 80GB pra ter margem. O treinamento leva de 48 a 72 horas dependendo do dataset e das configurações.

Na minha experiência treinando modelos nessa faixa, o custo real fica entre o dobro e o triplo do que você estimou inicialmente. Sério. Porque você não acerta a configuração de primeira — tem que testar learning rate, warm-up steps, formato dos dados, e cada tentativa custa. Eu costumo planejar pelo menos 3-4 runs de teste antes do treinamento final.

Uma estratégia que eu uso muito: faço os runs de teste em spot instances (que são significativamente mais baratas) com datasets menores pra validar os hiperparâmetros. Depois, rodo o treinamento final em on-demand com o dataset completo. Isso corta bastante do custo de experimentação.

Gradient accumulation é outro truque essencial nessa faixa. Você simula batch sizes maiores sem precisar de mais VRAM, o que significa que pode usar GPUs mais baratas. Já treinei 7B com gradient accumulation de 8 steps numa A100 40GB que seria impossível sem isso.

Modelos grandes (70B+ parâmetros)

Treinar um modelo de 70B é outra liga. Você precisa de múltiplas GPUs — estamos falando de 4 a 8 H100s ou A100s, com NVLink ou InfiniBand pra comunicação rápida entre elas. O custo por hora de um cluster desses é alto, e o treinamento completo pode levar semanas.

Eu fui honesto: nunca treinei um 70B do zero sozinho. Participei de projetos onde isso aconteceu, e a conta ficou na casa de milhares de dólares — e isso com otimização agressiva. Se você tá pensando em treinar algo nessa escala, provavelmente já tem budget de empresa ou grant de pesquisa.

Agora, fine-tuning de modelos de 70B é mais factível. Com QLoRA, dá pra fazer fine-tuning de um LLaMA 70B numa única H100 80GB. O treinamento leva de 24 a 72 horas dependendo do dataset. Ainda é caro, mas tá ao alcance de startups e pesquisadores independentes.

O que ninguém conta sobre custos de treinamento

Tem custos escondidos que a maioria dos guias ignora. Primeiro: transferência de dados. Se seu dataset é grande (dezenas de GB), fazer upload pro provedor de cloud leva tempo e às vezes custa. Segundo: armazenamento. Checkpoints de modelos grandes ocupam centenas de GB. Terceiro: depuração. Quando algo dá errado no meio de um treinamento (e vai dar), você paga pelo tempo que gastou investigando com a GPU ligada.

Minha regra de ouro: pegue a estimativa de custo que você calculou e multiplique por 2.5x. Esse é o custo real. Inclui as tentativas que falharam, o tempo de setup, a transferência de dados, e aquela vez que você esqueceu a instância ligada de sexta à noite e só percebeu na segunda.

Como reduzir custos de verdade

Mixed precision training (FP16/BF16) é obrigatório. Não tem motivo pra treinar em FP32 em 2026. Isso sozinho corta o uso de VRAM pela metade e acelera o treinamento significativamente. Se seu framework suporta BF16 (e em H100/A100 suporta), use.

Spot instances são a forma mais direta de economizar. A economia chega a 50-60% comparado com on-demand. O risco de interrupção existe, mas se você salva checkpoints frequentes (eu salvo a cada epoch ou a cada 1000 steps), o prejuízo de uma interrupção é mínimo — você retoma de onde parou.

Compare provedores antes de cada job grande. Eu não estou sendo repetitivo à toa — a diferença de preço entre provedores pra mesma GPU pode bancar vários dias a mais de treinamento. [Confira os preços atualizados aqui](/comparisons/h100-pricing).

Use nosso comparador pra planejar seus custos →

Quanto Custa Treinar um LLM na Nuvem?

Quanto Custa Treinar um LLM na Nuvem?

O elefante na sala

Modelos pequenos (1-3B parâmetros)

Modelos médios (7-13B parâmetros)

Modelos grandes (70B+ parâmetros)

O que ninguém conta sobre custos de treinamento

Como reduzir custos de verdade

Ready to save?

Related Articles

Guia Completo: GPU Cloud vs Comprar GPU

Melhor GPU Cloud para Brasileiros em 2026

Como Treinar IA Gastando Pouco na Nuvem