AITOT

Calculadora

Benchmark y costo de inferencia

Mide velocidad y costo por millón de tokens en distintos hardwares y modelos.

Precios actualizados:

El AITOT Inference Benchmark estima tokens/segundo y coste por millón de output tokens para self-hosted inference en H100, H200, B200, A100, RTX 5090 — corriendo Llama 4, Qwen 3, Mistral, DeepSeek con vLLM, TGI, o SGLang.

Un H100 corre Llama 4 70B a ~95 tokens/sec single-stream, 380 tokens/sec en batch=8. Con speculative decoding usando Llama 4 8B como draft, single-stream alcanza ~140 tokens/sec. H100 es 1.7× más rápido que A100.

Coste por M output tokens baja con batching — single-stream H100 + Llama 4 70B es $0.45/M; batch=8 baja a $0.12/M (casi 4× más barato).

Más barato

DeepInfra

$69.00/mes

Más rápido

SambaNova

580tok/s

ProveedorTokens/segTTFTTiempo de respuesta$ / 1M outTotal / mes
DeepInfra70410 ms7.55 s$0.60$69.00
SambaNova580110 ms0.97 s$0.60$90.00
Groq320180 ms1.74 s$0.79$98.50
Cerebras450120 ms1.23 s$0.85$107.50
Together92320 ms5.75 s$0.88$132.00
Fireworks110290 ms4.84 s$0.90$135.00
Self-host (H100 SXM ×4, vLLM)

AWS p5 spot reference

85380 ms6.26 s$1.95$292.50
Self-host (B200 ×4)165220 ms3.25 s$2.10$315.00

Cifras de batch=1 streaming-decode (UX chat). Los batches de back-end de producción pueden alcanzar 5–20× más tokens/seg al mismo costo por token. Contrasta con artificialanalysis.ai para datos recientes.

Qué hace esta calculadora

Tokens/sec top modelos

Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.

Modelado batch size

Throughput de batch=1 a batch=32 con continuous batching.

Estimados TTFT

Time-to-first-token modelado — crítico para UX chat.

Speculative decoding

Toggle para ver 1.5-2× speedup con draft-model.

Coste por 1M output

GPU rental ÷ throughput = $/M output real.

vLLM, TGI, SGLang

Overhead engine contado; vLLM típicamente más rápido throughput.

Comparación rápida

Llama 4 70B performance por GPU (vLLM, batch=8)

GPUTokens/secTTFTCost/M out
RTX 5090 32GB (quant)110420ms$0.08
A100 80GB210180ms$0.18
H100 80GB38095ms$0.12
H100 SXM + spec.54090ms$0.09
H200 141GB48060ms$0.10
B20076040ms$0.08

Coste asume pricing RunPod community; vLLM batched 8 concurrent.

Cómo usar esta calculadora

Estima tokens/sec y coste por M tokens para self-hosted LLM inference.

  1. 1

    Elige modelo

    Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, o Mistral. Tool flagea VRAM mismatches.

  2. 2

    Elige GPU

    H100 es workhorse. H200/B200 highest throughput. RTX 5090 cheap dev.

  3. 3

    Set batch concurrency

    Batch=8 sweet spot producción. Higher saves cost pero raises latency.

  4. 4

    Habilita speculative decoding

    Si tienes draft model pequeño, toggle para 1.5-2× speedup.

Por qué usar esta calculadora

  • Benchmarks basados en vLLM + SGLang públicos
  • 5 clases GPU cubiertas
  • Overhead engine incluido
  • TTFT modelado
  • Speculative decoding incluido
  • Refrescado mensualmente

Preguntas frecuentes

¿Cuántos tokens/segundo da una H100 en Llama 4 70B?+
Unos 95 tokens/sec single-stream, 380 tokens/sec en batch=8 con vLLM. Con speculative decoding usando Llama 4 8B como draft, single-stream sube a ~140 tokens/sec. TTFT típico 280ms cold, 95ms warm.
H100 vs A100 — ¿qué speedup real en inferencia en 2026?+
Para Llama 4 70B FP16: H100 corre ~1.7× más rápido (95 vs 56 tok/sec). En long-context (>32k), H100 amplía la diferencia a 2.4× por mayor memory bandwidth. A100 aún gana en $/token para workloads legacy.
¿Qué es TTFT y por qué importa?+
Time-to-first-token: cuánto espera el usuario antes de ver el primer carácter. Crítico para UX chat. Más de 1 segundo se siente roto. Speculative decoding, prompt caching y prefix sharing lo reducen. H200 y B200 cortan TTFT 40% vs H100.
¿Cómo afecta el batching al coste por millón de tokens?+
Single-stream H100 + Llama 4 70B cuesta unos $0.45/M output. En batch=8 baja a $0.12/M (casi 4× más barato). vLLM, TGI, SGLang soportan continuous batching. La calculadora modela batch=1, 4, 8, 16.
¿Las GPUs consumer (RTX 4090, 5090) son viables para inferencia?+
Para modelos hasta 30B quantizados a int4, sí. RTX 5090 (32GB) corre Llama 4 8B a 180 tokens/sec con coste eléctrico amortizado bajo $0.05/hora. No para 70B+ sin 4-bit quant + offloading. Camino barato para dev y side projects.
¿Qué engine de inferencia usar en 2026 — vLLM, TGI o SGLang?+
vLLM tiene el mejor continuous batching y prompt caching. SGLang gana en structured output y prompts complejos. TGI es el más production-hardened (HF). Para puro throughput, vLLM. Para chat latency-sensitive, SGLang. La calculadora asume defaults vLLM.