AITOT

Calculateur

Benchmark et coût d'inférence

Mesurez la vitesse d'inférence et le coût par million de tokens sur différents matériels et modèles.

Tarifs actualisés:

Le AITOT Inference Benchmark estime tokens/seconde et coût par million output tokens pour self-hosted inference sur H100, H200, B200, A100, RTX 5090 — Llama 4, Qwen 3, Mistral, DeepSeek avec vLLM, TGI, SGLang.

Un H100 fait tourner Llama 4 70B à ~95 tokens/sec single-stream, 380 tokens/sec batch=8. Avec speculative decoding Llama 4 8B comme draft, single-stream pousse à ~140 tokens/sec.

Coût par M output tokens baisse avec batching — single-stream H100 + Llama 4 70B est $0.45/M; batch=8 baisse à $0.12/M (presque 4× moins cher).

Le moins cher

DeepInfra

$69.00/mois

Le plus rapide

SambaNova

580tok/s

HébergeurTokens/secTTFTTemps de réponse$ / 1M outTotal / mois
DeepInfra70410 ms7.55 s$0.60$69.00
SambaNova580110 ms0.97 s$0.60$90.00
Groq320180 ms1.74 s$0.79$98.50
Cerebras450120 ms1.23 s$0.85$107.50
Together92320 ms5.75 s$0.88$132.00
Fireworks110290 ms4.84 s$0.90$135.00
Self-host (H100 SXM ×4, vLLM)

AWS p5 spot reference

85380 ms6.26 s$1.95$292.50
Self-host (B200 ×4)165220 ms3.25 s$2.10$315.00

Chiffres en batch=1 streaming-decode (UX chat). Les batches back-end de production peuvent atteindre 5 à 20× plus de tokens/sec au même coût par token. Croisez avec artificialanalysis.ai pour les données récentes.

Ce que fait ce calculateur

Tokens/sec top modèles

Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.

Modélisation batch size

Throughput de batch=1 à batch=32 avec continuous batching.

Estimations TTFT

Time-to-first-token modélisé — critique pour UX chat.

Speculative decoding

Toggle pour voir 1.5-2× speedup avec draft-model.

Coût par 1M output

GPU rental ÷ throughput = $/M output réel.

vLLM, TGI, SGLang

Overhead engine compté; vLLM typiquement plus rapide.

Comparaison rapide

Llama 4 70B performance par GPU (vLLM, batch=8)

GPUTokens/secTTFTCost/M out
RTX 5090 32GB (quant)110420ms$0.08
A100 80GB210180ms$0.18
H100 80GB38095ms$0.12
H100 SXM + spec.54090ms$0.09
H200 141GB48060ms$0.10
B20076040ms$0.08

Coût assume pricing RunPod community; vLLM batched 8 concurrent.

Comment utiliser ce calculateur

Estimez tokens/sec et coût par M tokens pour self-hosted LLM inference.

  1. 1

    Choisissez modèle

    Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, ou Mistral.

  2. 2

    Choisissez GPU

    H100 est workhorse. H200/B200 highest throughput. RTX 5090 dev pas cher.

  3. 3

    Set batch concurrency

    Batch=8 sweet spot production. Plus haut économise cost mais raises latency.

  4. 4

    Activez speculative decoding

    Si vous avez draft model petit, toggle pour 1.5-2× speedup.

Pourquoi utiliser ce calculateur

  • Benchmarks basés sur rapports vLLM + SGLang publics
  • 5 classes GPU couvertes
  • Overhead engine inclus
  • TTFT modélisé
  • Speculative decoding inclus
  • Rafraîchi mensuellement

Questions fréquentes

Combien de tokens/seconde une H100 fait-elle sur Llama 4 70B ?+
Environ 95 tokens/sec single-stream, 380 tokens/sec en batch=8 avec vLLM. Avec speculative decoding via Llama 4 8B comme draft, single-stream monte à ~140 tokens/sec. TTFT typique 280ms cold, 95ms warm.
H100 vs A100 — quel speedup réel en inférence en 2026 ?+
Pour Llama 4 70B FP16 : H100 ~1.7× plus rapide (95 vs 56 tok/sec). En long-context (>32k), H100 creuse l'écart à 2.4× grâce à la bande passante mémoire plus haute. A100 gagne encore en $/token pour workloads legacy.
Qu'est-ce que le TTFT et pourquoi c'est important ?+
Time-to-first-token : combien l'utilisateur attend avant de voir le premier caractère. Crucial pour l'UX chat. Plus d'1 seconde semble cassé. Speculative decoding, prompt caching et prefix sharing le réduisent. H200 et B200 coupent TTFT 40% vs H100.
Comment le batching affecte-t-il le coût par million de tokens ?+
Single-stream H100 + Llama 4 70B coûte environ $0.45/M output. À batch=8 ça tombe à $0.12/M (presque 4× moins cher). vLLM, TGI, SGLang supportent le continuous batching. Le calculateur modélise batch=1, 4, 8, 16.
Les GPU consumer (RTX 4090, 5090) sont-elles viables pour l'inférence ?+
Pour des modèles jusqu'à 30B quantizés int4, oui. RTX 5090 (32GB) fait tourner Llama 4 8B à 180 tokens/sec pour un coût électrique amortizé sous $0.05/heure. Pas viable pour 70B+ sans 4-bit quant + offloading. Voie pas chère pour dev et projets perso.
Quel moteur d'inférence utiliser en 2026 — vLLM, TGI ou SGLang ?+
vLLM a le meilleur continuous batching et prompt caching. SGLang gagne en structured output et prompts complexes. TGI est le plus production-hardened (HF). Pour throughput pur, vLLM. Pour chat latency-sensitive, SGLang. Le calculateur assume defaults vLLM.