Calculadora
Benchmark y costo de inferencia
Mide velocidad y costo por millón de tokens en distintos hardwares y modelos.
Precios actualizados:
El AITOT Inference Benchmark estima tokens/segundo y coste por millón de output tokens para self-hosted inference en H100, H200, B200, A100, RTX 5090 — corriendo Llama 4, Qwen 3, Mistral, DeepSeek con vLLM, TGI, o SGLang.
Un H100 corre Llama 4 70B a ~95 tokens/sec single-stream, 380 tokens/sec en batch=8. Con speculative decoding usando Llama 4 8B como draft, single-stream alcanza ~140 tokens/sec. H100 es 1.7× más rápido que A100.
Coste por M output tokens baja con batching — single-stream H100 + Llama 4 70B es $0.45/M; batch=8 baja a $0.12/M (casi 4× más barato).
Más barato
DeepInfra
$69.00/mes
Más rápido
SambaNova
580tok/s
| Proveedor | Tokens/seg | TTFT | Tiempo de respuesta | $ / 1M out | Total / mes |
|---|---|---|---|---|---|
| DeepInfra | 70 | 410 ms | 7.55 s | $0.60 | $69.00 |
| SambaNova | 580 | 110 ms | 0.97 s | $0.60 | $90.00 |
| Groq | 320 | 180 ms | 1.74 s | $0.79 | $98.50 |
| Cerebras | 450 | 120 ms | 1.23 s | $0.85 | $107.50 |
| Together | 92 | 320 ms | 5.75 s | $0.88 | $132.00 |
| Fireworks | 110 | 290 ms | 4.84 s | $0.90 | $135.00 |
| Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference | 85 | 380 ms | 6.26 s | $1.95 | $292.50 |
| Self-host (B200 ×4) | 165 | 220 ms | 3.25 s | $2.10 | $315.00 |
Cifras de batch=1 streaming-decode (UX chat). Los batches de back-end de producción pueden alcanzar 5–20× más tokens/seg al mismo costo por token. Contrasta con artificialanalysis.ai para datos recientes.
Qué hace esta calculadora
Tokens/sec top modelos
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.
Modelado batch size
Throughput de batch=1 a batch=32 con continuous batching.
Estimados TTFT
Time-to-first-token modelado — crítico para UX chat.
Speculative decoding
Toggle para ver 1.5-2× speedup con draft-model.
Coste por 1M output
GPU rental ÷ throughput = $/M output real.
vLLM, TGI, SGLang
Overhead engine contado; vLLM típicamente más rápido throughput.
Comparación rápida
Llama 4 70B performance por GPU (vLLM, batch=8)
| GPU | Tokens/sec | TTFT | Cost/M out |
|---|---|---|---|
| RTX 5090 32GB (quant) | 110 | 420ms | $0.08 |
| A100 80GB | 210 | 180ms | $0.18 |
| H100 80GB | 380 | 95ms | $0.12 |
| H100 SXM + spec. | 540 | 90ms | $0.09 |
| H200 141GB | 480 | 60ms | $0.10 |
| B200 | 760 | 40ms | $0.08 |
Coste asume pricing RunPod community; vLLM batched 8 concurrent.
Cómo usar esta calculadora
Estima tokens/sec y coste por M tokens para self-hosted LLM inference.
- 1
Elige modelo
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, o Mistral. Tool flagea VRAM mismatches.
- 2
Elige GPU
H100 es workhorse. H200/B200 highest throughput. RTX 5090 cheap dev.
- 3
Set batch concurrency
Batch=8 sweet spot producción. Higher saves cost pero raises latency.
- 4
Habilita speculative decoding
Si tienes draft model pequeño, toggle para 1.5-2× speedup.
Por qué usar esta calculadora
- ✓Benchmarks basados en vLLM + SGLang públicos
- ✓5 clases GPU cubiertas
- ✓Overhead engine incluido
- ✓TTFT modelado
- ✓Speculative decoding incluido
- ✓Refrescado mensualmente