Arquitetura Hopper vs Ampere: Diferenças que Importam para AI

Introdução

A escolha entre H100 (Hopper) e A100 (Ampere) é uma das decisões mais impactantes no orçamento de infraestrutura de AI. Com diferença de preço de até 2x, entender o que realmente muda entre as gerações é essencial.

Principais Diferenças Técnicas

Transformer Engine (exclusivo Hopper)

O **Transformer Engine** é a mudança mais revolucionária do Hopper. Ele detecta automaticamente layers de atenção e comuta entre FP8 e FP16 em tempo real, sem intervenção do desenvolvedor.

A100 (Ampere):: BF16/FP16 como precisão mínima prática

H100 (Hopper):: FP8 nativo com conversão automática

Resultado: até **2x mais throughput** em workloads de LLM com a mesma memória.

FP8 vs BF16

| Métrica | A100 BF16 | H100 FP8 |

|---|---|---|

| TFLOPS teóricos | 312 | 989 |

| Precisão efetiva | Alta | Muito alta (com scaling) |

| Memória consumida | 2 bytes/param | 1 byte/param |

NVLink 4 vs NVLink 3

A100:: NVLink 3.0 — 600 GB/s bidirecional por GPU

H100 SXM:: NVLink 4.0 — 900 GB/s bidirecional por GPU

Em treinamento multi-GPU, essa diferença se traduz em até **20% menos tempo de sincronização** de gradientes em modelos acima de 70B parâmetros.

HBM3 vs HBM2e

| Memória | Banda | Capacidade |

|---|---|---|

| A100 HBM2e | 2 TB/s | 40GB ou 80GB |

| H100 SXM5 HBM3 | 3.35 TB/s | 80GB |

A largura de banda extra do HBM3 é especialmente relevante para **inferência de modelos grandes**, onde o gargalo costuma ser o acesso à memória, não os FLOPs.

Benchmarks Reais

LLaMA 3 70B — Treinamento (tokens/seg)

A100 80GB:: ~4.200 tokens/seg (BF16)

H100 80GB:: ~9.800 tokens/seg (FP8 + Transformer Engine)

Whisper Large v3 — Inferência em batch

A100:: 120 req/min

H100:: 210 req/min

Quando o Hopper Vale a Pena?

**Escolha H100 se:**

Treina LLMs acima de 13B parâmetros

Precisa de throughput máximo em inferência em produção

Usa multi-GPU com mais de 4 nós

**Fique no A100 se:**

Treina modelos menores (até 7-13B)

Budget é o principal fator

Workloads de visão computacional ou tabular

Diferença de Custo Real

Em plataformas como RunPod e Vast.ai:

A100 80GB:: ~$2,49/hora

H100 80GB SXM:: ~$3,99/hora

Para um treinamento de 100 horas de A100 equivalente, você completaria em ~43 horas de H100. O custo total seria similar, mas o H100 libera a GPU mais rápido para outros projetos.

Resumo Final

A arquitetura Hopper não é só uma atualização incremental — é um salto geracional para workloads de transformer. Se seu foco é LLMs, o H100 paga seu custo extra em velocidade de iteração.

Compare preços de H100 e A100 agora → →

Arquitetura Hopper vs Ampere: Diferenças que Importam para AI

Arquitetura Hopper vs Ampere: Diferenças que Importam para AI

Introdução

Principais Diferenças Técnicas

Transformer Engine (exclusivo Hopper)

FP8 vs BF16

NVLink 4 vs NVLink 3

HBM3 vs HBM2e

Benchmarks Reais

LLaMA 3 70B — Treinamento (tokens/seg)

Whisper Large v3 — Inferência em batch

Quando o Hopper Vale a Pena?

Diferença de Custo Real

Resumo Final

節約する準備はできましたか？

関連記事

Técnicas Avançadas para Reduzir Custos de GPU Cloud

Melhor GPU Cloud para Brasileiros em 2026

Como Treinar IA Gastando Pouco na Nuvem