Benchmark Inference AI 2026: H100 vs A100 vs B200 vs Hosted
Compara 22 hosts inference en 2026 — tokens/seg, latencia, dólares por millón. Groq, Cerebras, SambaNova, Together, Fireworks, self-host H100/B200.
El rendimiento de inference AI en 2026 abarca un spread 10× en el mismo modelo. Llama 4 70B corre a 580 tokens/seg en SambaNova versus 38 tokens/seg en endpoint hosted Together AI — mismos pesos, hardware completamente diferente abajo. Esta guía benchmarkea 22 providers inference por velocidad (tokens/seg), latencia (TTFT) y costo (dólares por millón). Para math tiempo real entre los 22 hosts y tus volúmenes específicos, usa nuestro Calculador de Benchmark Inference AI.
La regla "Más Rápido ≠ Más Barato" aplica fuerte aquí. Groq y Cerebras son casi siempre los más rápidos pero a menudo no los más baratos. SambaNova a veces logra ambos.
¿Qué tan rápido corre Llama 4 70B en 2026?
Output tokens/seg a batch=1 streaming decode, más rápido primero:
| Host | Tokens/seg | TTFT | Costo/1M out |
|---|---|---|---|
| SambaNova | 580 | 110ms | $0,60 |
| Cerebras | 450 | 120ms | $0,85 |
| Groq | 320 | 180ms | $0,79 |
| B200 ×4 self-host | 165 | 220ms | $2,10 |
| Fireworks | 110 | 290ms | $0,90 |
| Together | 92 | 320ms | $0,88 |
| Self-host H100 ×4 (vLLM) | 85 | 380ms | $1,95 |
| DeepInfra | 70 | 410ms | $0,60 |
Tres clusters visibles. Silicio especializado (SambaNova, Cerebras, Groq) a 300–580 tok/seg. B200 ~165 tok/seg. GPUs NVIDIA a escala (Together, Fireworks, DeepInfra, self-host) 70–110 tok/seg.
¿Qué provider inference usar en 2026?
Decision tree por prioridad:
- Latencia más baja para chat UX — Groq, Cerebras, o SambaNova. Paga el premium cuando percepción de velocidad importa.
- Más barato a cualquier velocidad — DeepInfra ($0,60/M output) o self-host Llama en GPU rentado.
- Mejor balance velocidad y costo — SambaNova es standout 2026 — rápido Y más barato.
- Mejor calidad output — Fireworks o Together. Providers especializados aún no hospedan Llama 405B / DeepSeek V3.
- Pricing enterprise predecible — Reserved capacity Together o AWS Bedrock.
- Self-host por control — vLLM en H100 SXM o B200 cluster. Justificado solo sobre 500M tokens/mes.
Un patrón común 2026 es routing multi-host: usar Groq o SambaNova para chat user-facing, Together o Fireworks para batch jobs back-end.
¿Cuál es la fórmula de dólares-por-millón-tokens?
La métrica titular:
$/M_output = pricing_host_por_1M_output_tokens
effective_$/M = $/M_output + (input_tokens/output_tokens) × $/M_input
monthly_cost = effective_$/M × output_tokens_por_mes / 1.000.000
El cálculo "dólares efectivos por millón" importa porque costo input-token es a menudo la mitad o menos del costo output. Para workloads chat (input/output 70/30), tarifa efectiva dominada por output. Para workloads RAG (95/5), dominada por input.
Ejemplo para 1.000 input + 500 output tokens por request, 100k requests/mes:
Groq (Llama 4 70B):
100k × 1000 × $0,59 / 1M = $59 input
100k × 500 × $0,79 / 1M = $39,5 output
Mensual: $99
Self-hosted H100 ×4 ($2,99/h × 4 = $11,96/h):
Throughput 85 tok/seg × 80% utilización = 68 tok/seg sostenido
176M tok/mes capacidad
Workload output: 50M output tok/mes — 28% utilización
GPU cost: $11,96 × 24 × 30 = $8.611/mes al 100% on
Efectivo al 28%: ~$2.153 si puedes scale down
Mensual: $2.153 (mayormente capacidad estancada)
Por esto self-hosting a volumen moderado es malo. El cluster H100 idle 72% del tiempo pero cuesta lo mismo. APIs hosted solo cobran lo que usas.
¿Qué costos ocultos vienen con inference?
Cinco que atrapan a la mayoría de teams:
- Inflación TTFT en contexto largo. Enviar 32k tokens contexto RAG añade 1–3 segundos a TTFT en la mayoría.
- Rate limits. La mayoría hosted cap a 5–20 requests/seg/cuenta. Tráfico spiky es throttled.
- Cold starts. Primera request después de 5+ minutos idle es 3–8× más lenta. Apps producción necesitan keep-alive pings o tier "always-warm" paid.
- Overhead speculative decoding. Algunos providers (Anthropic, OpenAI) cobran tokens speculatively-decoded incluso cuando rechazados.
- Requests fallidos no siempre reembolsan. Streams half-completed de network drops aún facturan tokens completados.
Para forecasting de costo completo capturando inference más infraestructura, usa nuestro Calculador Costo Agente. Para comparación inference-only, usa el Calculador Benchmark Inference.
¿Cuándo correr inference en H100 vs B200 vs A100?
Elección GPU para self-hosted inference:
- H100 SXM5 — sweet spot 2026 para serving 7B–70B. vLLM/SGLang maduros, FP8 bueno, ~85 tok/seg Llama 4 70B batch=1.
- B200 — gana para inference sostenido alto volumen. 2× throughput a 1,6× costo = 25% más barato por millón tokens.
- A100 80GB — solo vale para fine-tunes 7B y embedding generation.
- H100 PCIe — 35% más barato que SXM5 con 80% throughput. Mejor ROI para workloads sin NVLink.
- L40S — sorprendentemente competitiva para inference sub-7B y embedding work.
Para pricing por tipo GPU entre 12 cloud providers, ver nuestro Calculador de Precios GPU.
¿Cómo escala throughput con batch size?
Los números batch=1 son streaming-decode (chat UX). Back-ends producción pueden batchear requests para throughput 5–20× mayor:
| Batch size | Llama 4 70B en H100 SXM ×4 | $/M output efectivo |
|---|---|---|
| 1 (streaming) | 85 tok/seg | $1,95 |
| 8 | 580 tok/seg | $0,29 |
| 32 | 1.800 tok/seg | $0,094 |
| 64 (max) | 2.400 tok/seg | $0,071 |
Un pipeline back-end batch puede pegar 7× throughput por dólar de un pipeline streaming chat en el mismo hardware. Por esto Together y Fireworks ofrecen endpoints "batch" separados a tarifas menores.
¿Qué viene después para inference en 2026?
Tres trends a watch:
- Normalización supply B200. Q3 2026 esperar precios B200 caer 30–40% mientras supply alcanza demanda.
- Disponibilidad cluster GB300. GPUs Blackwell Ultra 1KW empezando a shipear fines 2026.
- Competencia chip especializado. AMD MI400, Trainium 3, Tenstorrent posicionándose para market share inference.
Refrescamos data benchmark inference el primero de cada mes. Para planeamiento amplio, el Calculador Precios GPU cubre el lado hardware y el Comparador Precios Tokens cubre pricing proprietary.