Back to blog
Técnico

Arquitetura Hopper vs Ampere: Diferenças que Importam para AI

12/03/2026
8 min read

Arquitetura Hopper vs Ampere: Diferenças que Importam para AI

Introdução

A escolha entre H100 (Hopper) e A100 (Ampere) é uma das decisões mais impactantes no orçamento de infraestrutura de AI. Com diferença de preço de até 2x, entender o que realmente muda entre as gerações é essencial.

Principais Diferenças Técnicas

Transformer Engine (exclusivo Hopper)

O **Transformer Engine** é a mudança mais revolucionária do Hopper. Ele detecta automaticamente layers de atenção e comuta entre FP8 e FP16 em tempo real, sem intervenção do desenvolvedor.

  • A100 (Ampere):: BF16/FP16 como precisão mínima prática
  • H100 (Hopper):: FP8 nativo com conversão automática
  • Resultado: até **2x mais throughput** em workloads de LLM com a mesma memória.

    FP8 vs BF16

    | Métrica | A100 BF16 | H100 FP8 |

    |---|---|---|

    | TFLOPS teóricos | 312 | 989 |

    | Precisão efetiva | Alta | Muito alta (com scaling) |

    | Memória consumida | 2 bytes/param | 1 byte/param |

    NVLink 4 vs NVLink 3

  • A100:: NVLink 3.0 — 600 GB/s bidirecional por GPU
  • H100 SXM:: NVLink 4.0 — 900 GB/s bidirecional por GPU
  • Em treinamento multi-GPU, essa diferença se traduz em até **20% menos tempo de sincronização** de gradientes em modelos acima de 70B parâmetros.

    HBM3 vs HBM2e

    | Memória | Banda | Capacidade |

    |---|---|---|

    | A100 HBM2e | 2 TB/s | 40GB ou 80GB |

    | H100 SXM5 HBM3 | 3.35 TB/s | 80GB |

    A largura de banda extra do HBM3 é especialmente relevante para **inferência de modelos grandes**, onde o gargalo costuma ser o acesso à memória, não os FLOPs.

    Benchmarks Reais

    LLaMA 3 70B — Treinamento (tokens/seg)

  • A100 80GB:: ~4.200 tokens/seg (BF16)
  • H100 80GB:: ~9.800 tokens/seg (FP8 + Transformer Engine)
  • Whisper Large v3 — Inferência em batch

  • A100:: 120 req/min
  • H100:: 210 req/min
  • Quando o Hopper Vale a Pena?

    **Escolha H100 se:**

  • Treina LLMs acima de 13B parâmetros
  • Precisa de throughput máximo em inferência em produção
  • Usa multi-GPU com mais de 4 nós
  • **Fique no A100 se:**

  • Treina modelos menores (até 7-13B)
  • Budget é o principal fator
  • Workloads de visão computacional ou tabular
  • Diferença de Custo Real

    Em plataformas como RunPod e Vast.ai:

  • A100 80GB:: ~$2,49/hora
  • H100 80GB SXM:: ~$3,99/hora
  • Para um treinamento de 100 horas de A100 equivalente, você completaria em ~43 horas de H100. O custo total seria similar, mas o H100 libera a GPU mais rápido para outros projetos.

    Conclusão

    A arquitetura Hopper não é só uma atualização incremental — é um salto geracional para workloads de transformer. Se seu foco é LLMs, o H100 paga seu custo extra em velocidade de iteração.

    Compare preços de H100 e A100 agora →

    Ready to save?

    Compare GPU cloud prices and find the best provider for your use case.

    Start Comparing

    Related Articles

    Técnico

    Técnicas Avançadas para Reduzir Custos de GPU Cloud

    Otimizações em código e infraestrutura: BF16/FP16, Flash Attention 2, gradient checkpointing, torch.compile(), profiling e estratégias de reserva para cortar custos em até 70%.

    11/03/20269 min
    Read More
    Guia

    Melhor GPU Cloud para Brasileiros em 2026

    Guia completo para brasileiros que querem usar GPU na nuvem. Comparamos precos, latencia, formas de pagamento e suporte em portugues.

    16/03/202610 min
    Read More
    Dicas

    Como Treinar IA Gastando Pouco na Nuvem

    Aprenda tecnicas praticas para reduzir custos de treinamento de modelos de IA na nuvem. De spot instances a QLoRA, economize ate 90% nos seus gastos.

    15/03/202611 min
    Read More