Benchmark Inférence IA 2026 : H100 vs A100 vs B200 vs Hosted
Comparez 22 hosts inférence en 2026 — tokens/sec, latence, dollars par million. Groq, Cerebras, SambaNova, Together, Fireworks, self-host H100/B200.
La performance d'inférence IA en 2026 couvre un spread 10× sur le même modèle. Llama 4 70B tourne à 580 tokens/sec sur SambaNova versus 38 tokens/sec sur endpoint hosted Together AI — mêmes poids, hardware complètement différent dessous. Ce guide benchmarke 22 providers d'inférence. Pour math temps réel, utilisez notre Calculateur Benchmark Inférence IA.
La règle "Plus Rapide ≠ Moins Cher" s'applique fortement ici.
Quelle vitesse pour Llama 4 70B en 2026 ?
Output tokens/sec à batch=1 streaming decode, plus rapide d'abord :
| Host | Tokens/sec | TTFT | Coût/1M out |
|---|---|---|---|
| SambaNova | 580 | 110ms | 0,60 $ |
| Cerebras | 450 | 120ms | 0,85 $ |
| Groq | 320 | 180ms | 0,79 $ |
| B200 ×4 self-host | 165 | 220ms | 2,10 $ |
| Fireworks | 110 | 290ms | 0,90 $ |
| Together | 92 | 320ms | 0,88 $ |
| Self-host H100 ×4 (vLLM) | 85 | 380ms | 1,95 $ |
| DeepInfra | 70 | 410ms | 0,60 $ |
Quel provider d'inférence en 2026 ?
- Latence la plus basse chat UX — Groq, Cerebras, ou SambaNova.
- Le moins cher — DeepInfra (0,60 $/M output) ou self-host Llama sur GPU loué.
- Meilleure balance vitesse-prix — SambaNova se démarque 2026.
- Plus haute qualité d'output — Fireworks ou Together.
- Pricing entreprise prévisible — Reserved Together ou AWS Bedrock.
- Self-host pour contrôle — vLLM sur H100 SXM ou B200.
Pattern commun 2026 : routing multi-host.
Formule dollars-par-million-tokens ?
$/M_output = host_pricing_per_1M_output_tokens
effective_$/M = $/M_output + (input/output) × $/M_input
monthly_cost = effective_$/M × output_tokens_per_month / 1M
Exemple 1 000 input + 500 output tokens/request, 100k requests/mois :
Groq:
100k × 1000 × 0,59 $ / 1M = 59 $ input
100k × 500 × 0,79 $ / 1M = 39,5 $ output
Mensuel: 99 $
Quels coûts cachés inférence ?
- Inflation TTFT contexte long. 32k tokens RAG context ajoute 1–3 sec à TTFT.
- Rate limits. 5–20 requests/sec/compte. Trafic spiky throttled.
- Cold starts. Première request après 5+ minutes idle 3–8× plus lente.
- Overhead speculative decoding. Certains providers facturent tokens spec-decoded. 5–15% facture.
- Requests échouées pas toujours remboursées.
H100 vs B200 vs A100 pour self-hosted ?
- H100 SXM5 — sweet spot 2026 pour serving 7B–70B.
- B200 — gagne pour inférence soutenue haut volume. 2× throughput à 1,6× coût.
- A100 80GB — seulement vaut pour fine-tunes 7B et embedding.
- H100 PCIe — 35% moins cher que SXM5 avec 80% throughput.
- L40S — étonnamment compétitive pour sub-7B et embedding.
Pour pricing par type GPU, voir Calculateur Prix GPU.
Throughput scale avec batch size ?
| Batch size | Llama 4 70B H100 SXM ×4 | Effective $/M output |
|---|---|---|
| 1 (streaming) | 85 tok/sec | 1,95 $ |
| 8 | 580 tok/sec | 0,29 $ |
| 32 | 1 800 tok/sec | 0,094 $ |
| 64 (max) | 2 400 tok/sec | 0,071 $ |
Pipeline back-end batch peut atteindre 7× throughput par dollar versus streaming chat.
Quoi de neuf pour inférence en 2026 ?
- Normalisation supply B200. Q3 2026 prix B200 chute 30–40%.
- Disponibilité cluster GB300. Blackwell Ultra 1KW fin 2026.
- Concurrence puce spécialisée. AMD MI400, Trainium 3, Tenstorrent.
Rafraîchit data benchmark inférence le premier de chaque mois.