Calculateur
Benchmark et coût d'inférence
Mesurez la vitesse d'inférence et le coût par million de tokens sur différents matériels et modèles.
Tarifs actualisés:
Le AITOT Inference Benchmark estime tokens/seconde et coût par million output tokens pour self-hosted inference sur H100, H200, B200, A100, RTX 5090 — Llama 4, Qwen 3, Mistral, DeepSeek avec vLLM, TGI, SGLang.
Un H100 fait tourner Llama 4 70B à ~95 tokens/sec single-stream, 380 tokens/sec batch=8. Avec speculative decoding Llama 4 8B comme draft, single-stream pousse à ~140 tokens/sec.
Coût par M output tokens baisse avec batching — single-stream H100 + Llama 4 70B est $0.45/M; batch=8 baisse à $0.12/M (presque 4× moins cher).
Le moins cher
DeepInfra
$69.00/mois
Le plus rapide
SambaNova
580tok/s
| Hébergeur | Tokens/sec | TTFT | Temps de réponse | $ / 1M out | Total / mois |
|---|---|---|---|---|---|
| DeepInfra | 70 | 410 ms | 7.55 s | $0.60 | $69.00 |
| SambaNova | 580 | 110 ms | 0.97 s | $0.60 | $90.00 |
| Groq | 320 | 180 ms | 1.74 s | $0.79 | $98.50 |
| Cerebras | 450 | 120 ms | 1.23 s | $0.85 | $107.50 |
| Together | 92 | 320 ms | 5.75 s | $0.88 | $132.00 |
| Fireworks | 110 | 290 ms | 4.84 s | $0.90 | $135.00 |
| Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference | 85 | 380 ms | 6.26 s | $1.95 | $292.50 |
| Self-host (B200 ×4) | 165 | 220 ms | 3.25 s | $2.10 | $315.00 |
Chiffres en batch=1 streaming-decode (UX chat). Les batches back-end de production peuvent atteindre 5 à 20× plus de tokens/sec au même coût par token. Croisez avec artificialanalysis.ai pour les données récentes.
Ce que fait ce calculateur
Tokens/sec top modèles
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.
Modélisation batch size
Throughput de batch=1 à batch=32 avec continuous batching.
Estimations TTFT
Time-to-first-token modélisé — critique pour UX chat.
Speculative decoding
Toggle pour voir 1.5-2× speedup avec draft-model.
Coût par 1M output
GPU rental ÷ throughput = $/M output réel.
vLLM, TGI, SGLang
Overhead engine compté; vLLM typiquement plus rapide.
Comparaison rapide
Llama 4 70B performance par GPU (vLLM, batch=8)
| GPU | Tokens/sec | TTFT | Cost/M out |
|---|---|---|---|
| RTX 5090 32GB (quant) | 110 | 420ms | $0.08 |
| A100 80GB | 210 | 180ms | $0.18 |
| H100 80GB | 380 | 95ms | $0.12 |
| H100 SXM + spec. | 540 | 90ms | $0.09 |
| H200 141GB | 480 | 60ms | $0.10 |
| B200 | 760 | 40ms | $0.08 |
Coût assume pricing RunPod community; vLLM batched 8 concurrent.
Comment utiliser ce calculateur
Estimez tokens/sec et coût par M tokens pour self-hosted LLM inference.
- 1
Choisissez modèle
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, ou Mistral.
- 2
Choisissez GPU
H100 est workhorse. H200/B200 highest throughput. RTX 5090 dev pas cher.
- 3
Set batch concurrency
Batch=8 sweet spot production. Plus haut économise cost mais raises latency.
- 4
Activez speculative decoding
Si vous avez draft model petit, toggle pour 1.5-2× speedup.
Pourquoi utiliser ce calculateur
- ✓Benchmarks basés sur rapports vLLM + SGLang publics
- ✓5 classes GPU couvertes
- ✓Overhead engine inclus
- ✓TTFT modélisé
- ✓Speculative decoding inclus
- ✓Rafraîchi mensuellement