Question 1

Combien de tokens/seconde une H100 fait-elle sur Llama 4 70B ?

Accepted Answer

Environ 95 tokens/sec single-stream, 380 tokens/sec en batch=8 avec vLLM. Avec speculative decoding via Llama 4 8B comme draft, single-stream monte à ~140 tokens/sec. TTFT typique 280ms cold, 95ms warm.

Question 2

H100 vs A100 — quel speedup réel en inférence en 2026 ?

Accepted Answer

Pour Llama 4 70B FP16 : H100 ~1.7× plus rapide (95 vs 56 tok/sec). En long-context (>32k), H100 creuse l'écart à 2.4× grâce à la bande passante mémoire plus haute. A100 gagne encore en $/token pour workloads legacy.

Question 3

Qu'est-ce que le TTFT et pourquoi c'est important ?

Accepted Answer

Time-to-first-token : combien l'utilisateur attend avant de voir le premier caractère. Crucial pour l'UX chat. Plus d'1 seconde semble cassé. Speculative decoding, prompt caching et prefix sharing le réduisent. H200 et B200 coupent TTFT 40% vs H100.

Question 4

Comment le batching affecte-t-il le coût par million de tokens ?

Accepted Answer

Single-stream H100 + Llama 4 70B coûte environ $0.45/M output. À batch=8 ça tombe à $0.12/M (presque 4× moins cher). vLLM, TGI, SGLang supportent le continuous batching. Le calculateur modélise batch=1, 4, 8, 16.

Question 5

Les GPU consumer (RTX 4090, 5090) sont-elles viables pour l'inférence ?

Accepted Answer

Pour des modèles jusqu'à 30B quantizés int4, oui. RTX 5090 (32GB) fait tourner Llama 4 8B à 180 tokens/sec pour un coût électrique amortizé sous $0.05/heure. Pas viable pour 70B+ sans 4-bit quant + offloading. Voie pas chère pour dev et projets perso.

Question 6

Quel moteur d'inférence utiliser en 2026 — vLLM, TGI ou SGLang ?

Accepted Answer

vLLM a le meilleur continuous batching et prompt caching. SGLang gagne en structured output et prompts complexes. TGI est le plus production-hardened (HF). Pour throughput pur, vLLM. Pour chat latency-sensitive, SGLang. Le calculateur assume defaults vLLM.

Hébergeur	Tokens/sec	TTFT	Temps de réponse	$ / 1M out	Total / mois
DeepInfra	70	410 ms	7.55 s	$0.60	$69.00
SambaNova	580	110 ms	0.97 s	$0.60	$90.00
Groq	320	180 ms	1.74 s	$0.79	$98.50
Cerebras	450	120 ms	1.23 s	$0.85	$107.50
Together	92	320 ms	5.75 s	$0.88	$132.00
Fireworks	110	290 ms	4.84 s	$0.90	$135.00
Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference	85	380 ms	6.26 s	$1.95	$292.50
Self-host (B200 ×4)	165	220 ms	3.25 s	$2.10	$315.00

GPU	Tokens/sec	TTFT	Cost/M out
RTX 5090 32GB (quant)	110	420ms	$0.08
A100 80GB	210	180ms	$0.18
H100 80GB	380	95ms	$0.12
H100 SXM + spec.	540	90ms	$0.09
H200 141GB	480	60ms	$0.10
B200	760	40ms	$0.08

Benchmark et coût d'inférence

Ce que fait ce calculateur

Tokens/sec top modèles

Modélisation batch size

Estimations TTFT

Speculative decoding

Coût par 1M output

vLLM, TGI, SGLang

Comparaison rapide

Comment utiliser ce calculateur

Pourquoi utiliser ce calculateur

Questions fréquentes