Question 1

¿Cuántos tokens/segundo da una H100 en Llama 4 70B?

Accepted Answer

Unos 95 tokens/sec single-stream, 380 tokens/sec en batch=8 con vLLM. Con speculative decoding usando Llama 4 8B como draft, single-stream sube a ~140 tokens/sec. TTFT típico 280ms cold, 95ms warm.

Question 2

H100 vs A100 — ¿qué speedup real en inferencia en 2026?

Accepted Answer

Para Llama 4 70B FP16: H100 corre ~1.7× más rápido (95 vs 56 tok/sec). En long-context (>32k), H100 amplía la diferencia a 2.4× por mayor memory bandwidth. A100 aún gana en $/token para workloads legacy.

Question 3

¿Qué es TTFT y por qué importa?

Accepted Answer

Time-to-first-token: cuánto espera el usuario antes de ver el primer carácter. Crítico para UX chat. Más de 1 segundo se siente roto. Speculative decoding, prompt caching y prefix sharing lo reducen. H200 y B200 cortan TTFT 40% vs H100.

Question 4

¿Cómo afecta el batching al coste por millón de tokens?

Accepted Answer

Single-stream H100 + Llama 4 70B cuesta unos $0.45/M output. En batch=8 baja a $0.12/M (casi 4× más barato). vLLM, TGI, SGLang soportan continuous batching. La calculadora modela batch=1, 4, 8, 16.

Question 5

¿Las GPUs consumer (RTX 4090, 5090) son viables para inferencia?

Accepted Answer

Para modelos hasta 30B quantizados a int4, sí. RTX 5090 (32GB) corre Llama 4 8B a 180 tokens/sec con coste eléctrico amortizado bajo $0.05/hora. No para 70B+ sin 4-bit quant + offloading. Camino barato para dev y side projects.

Question 6

¿Qué engine de inferencia usar en 2026 — vLLM, TGI o SGLang?

Accepted Answer

vLLM tiene el mejor continuous batching y prompt caching. SGLang gana en structured output y prompts complejos. TGI es el más production-hardened (HF). Para puro throughput, vLLM. Para chat latency-sensitive, SGLang. La calculadora asume defaults vLLM.

Proveedor	Tokens/seg	TTFT	Tiempo de respuesta	$ / 1M out	Total / mes
DeepInfra	70	410 ms	7.55 s	$0.60	$69.00
SambaNova	580	110 ms	0.97 s	$0.60	$90.00
Groq	320	180 ms	1.74 s	$0.79	$98.50
Cerebras	450	120 ms	1.23 s	$0.85	$107.50
Together	92	320 ms	5.75 s	$0.88	$132.00
Fireworks	110	290 ms	4.84 s	$0.90	$135.00
Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference	85	380 ms	6.26 s	$1.95	$292.50
Self-host (B200 ×4)	165	220 ms	3.25 s	$2.10	$315.00

GPU	Tokens/sec	TTFT	Cost/M out
RTX 5090 32GB (quant)	110	420ms	$0.08
A100 80GB	210	180ms	$0.18
H100 80GB	380	95ms	$0.12
H100 SXM + spec.	540	90ms	$0.09
H200 141GB	480	60ms	$0.10
B200	760	40ms	$0.08

Benchmark y costo de inferencia

Qué hace esta calculadora

Tokens/sec top modelos

Modelado batch size

Estimados TTFT

Speculative decoding

Coste por 1M output

vLLM, TGI, SGLang

Comparación rápida

Cómo usar esta calculadora

Por qué usar esta calculadora

Preguntas frecuentes