Arquitetura Hopper vs Ampere: Diferenças que Importam para AI
Arquitetura Hopper vs Ampere: Diferenças que Importam para AI
Introdução
A escolha entre H100 (Hopper) e A100 (Ampere) é uma das decisões mais impactantes no orçamento de infraestrutura de AI. Com diferença de preço de até 2x, entender o que realmente muda entre as gerações é essencial.
Principais Diferenças Técnicas
Transformer Engine (exclusivo Hopper)
O **Transformer Engine** é a mudança mais revolucionária do Hopper. Ele detecta automaticamente layers de atenção e comuta entre FP8 e FP16 em tempo real, sem intervenção do desenvolvedor.
Resultado: até **2x mais throughput** em workloads de LLM com a mesma memória.
FP8 vs BF16
| Métrica | A100 BF16 | H100 FP8 |
|---|---|---|
| TFLOPS teóricos | 312 | 989 |
| Precisão efetiva | Alta | Muito alta (com scaling) |
| Memória consumida | 2 bytes/param | 1 byte/param |
NVLink 4 vs NVLink 3
Em treinamento multi-GPU, essa diferença se traduz em até **20% menos tempo de sincronização** de gradientes em modelos acima de 70B parâmetros.
HBM3 vs HBM2e
| Memória | Banda | Capacidade |
|---|---|---|
| A100 HBM2e | 2 TB/s | 40GB ou 80GB |
| H100 SXM5 HBM3 | 3.35 TB/s | 80GB |
A largura de banda extra do HBM3 é especialmente relevante para **inferência de modelos grandes**, onde o gargalo costuma ser o acesso à memória, não os FLOPs.
Benchmarks Reais
LLaMA 3 70B — Treinamento (tokens/seg)
Whisper Large v3 — Inferência em batch
Quando o Hopper Vale a Pena?
**Escolha H100 se:**
**Fique no A100 se:**
Diferença de Custo Real
Em plataformas como RunPod e Vast.ai:
Para um treinamento de 100 horas de A100 equivalente, você completaria em ~43 horas de H100. O custo total seria similar, mas o H100 libera a GPU mais rápido para outros projetos.
Resumo Final
A arquitetura Hopper não é só uma atualização incremental — é um salto geracional para workloads de transformer. Se seu foco é LLMs, o H100 paga seu custo extra em velocidade de iteração.
Lucas Ferreira
Senior AI Engineer
Ex-NVIDIA, spent 3 years benchmarking data center GPUs. Now helps teams pick the right hardware for their ML workloads. Ran inference benchmarks on every GPU generation since Volta.
関連記事
Técnicas Avançadas para Reduzir Custos de GPU Cloud
Otimizações em código e infraestrutura: BF16/FP16, Flash Attention 2, gradient checkpointing, torch.compile(), profiling e estratégias de reserva para cortar custos em até 70%.
Melhor GPU Cloud para Brasileiros em 2026
Guia completo para brasileiros que querem usar GPU na nuvem. Comparamos precos, latencia, formas de pagamento e suporte em portugues.
Como Treinar IA Gastando Pouco na Nuvem
Aprenda tecnicas praticas para reduzir custos de treinamento de modelos de IA na nuvem. De spot instances a QLoRA, economize ate 90% nos seus gastos.