AITOT
Blog

Benchmark Inference AI 2026: H100 vs A100 vs B200 vs Hosted

Compara 22 hosts inference en 2026 — tokens/seg, latencia, dólares por millón. Groq, Cerebras, SambaNova, Together, Fireworks, self-host H100/B200.

5 min read· By AITOT Editorial

El rendimiento de inference AI en 2026 abarca un spread 10× en el mismo modelo. Llama 4 70B corre a 580 tokens/seg en SambaNova versus 38 tokens/seg en endpoint hosted Together AI — mismos pesos, hardware completamente diferente abajo. Esta guía benchmarkea 22 providers inference por velocidad (tokens/seg), latencia (TTFT) y costo (dólares por millón). Para math tiempo real entre los 22 hosts y tus volúmenes específicos, usa nuestro Calculador de Benchmark Inference AI.

La regla "Más Rápido ≠ Más Barato" aplica fuerte aquí. Groq y Cerebras son casi siempre los más rápidos pero a menudo no los más baratos. SambaNova a veces logra ambos.

¿Qué tan rápido corre Llama 4 70B en 2026?

Output tokens/seg a batch=1 streaming decode, más rápido primero:

HostTokens/segTTFTCosto/1M out
SambaNova580110ms$0,60
Cerebras450120ms$0,85
Groq320180ms$0,79
B200 ×4 self-host165220ms$2,10
Fireworks110290ms$0,90
Together92320ms$0,88
Self-host H100 ×4 (vLLM)85380ms$1,95
DeepInfra70410ms$0,60

Tres clusters visibles. Silicio especializado (SambaNova, Cerebras, Groq) a 300–580 tok/seg. B200 ~165 tok/seg. GPUs NVIDIA a escala (Together, Fireworks, DeepInfra, self-host) 70–110 tok/seg.

¿Qué provider inference usar en 2026?

Decision tree por prioridad:

  • Latencia más baja para chat UX — Groq, Cerebras, o SambaNova. Paga el premium cuando percepción de velocidad importa.
  • Más barato a cualquier velocidad — DeepInfra ($0,60/M output) o self-host Llama en GPU rentado.
  • Mejor balance velocidad y costo — SambaNova es standout 2026 — rápido Y más barato.
  • Mejor calidad output — Fireworks o Together. Providers especializados aún no hospedan Llama 405B / DeepSeek V3.
  • Pricing enterprise predecible — Reserved capacity Together o AWS Bedrock.
  • Self-host por control — vLLM en H100 SXM o B200 cluster. Justificado solo sobre 500M tokens/mes.

Un patrón común 2026 es routing multi-host: usar Groq o SambaNova para chat user-facing, Together o Fireworks para batch jobs back-end.

¿Cuál es la fórmula de dólares-por-millón-tokens?

La métrica titular:

$/M_output = pricing_host_por_1M_output_tokens
effective_$/M = $/M_output + (input_tokens/output_tokens) × $/M_input
monthly_cost = effective_$/M × output_tokens_por_mes / 1.000.000

El cálculo "dólares efectivos por millón" importa porque costo input-token es a menudo la mitad o menos del costo output. Para workloads chat (input/output 70/30), tarifa efectiva dominada por output. Para workloads RAG (95/5), dominada por input.

Ejemplo para 1.000 input + 500 output tokens por request, 100k requests/mes:

Groq (Llama 4 70B):
  100k × 1000 × $0,59 / 1M = $59 input
  100k × 500  × $0,79 / 1M = $39,5 output
  Mensual: $99

Self-hosted H100 ×4 ($2,99/h × 4 = $11,96/h):
  Throughput 85 tok/seg × 80% utilización = 68 tok/seg sostenido
  176M tok/mes capacidad
  Workload output: 50M output tok/mes — 28% utilización
  GPU cost: $11,96 × 24 × 30 = $8.611/mes al 100% on
  Efectivo al 28%: ~$2.153 si puedes scale down
  Mensual: $2.153 (mayormente capacidad estancada)

Por esto self-hosting a volumen moderado es malo. El cluster H100 idle 72% del tiempo pero cuesta lo mismo. APIs hosted solo cobran lo que usas.

¿Qué costos ocultos vienen con inference?

Cinco que atrapan a la mayoría de teams:

  • Inflación TTFT en contexto largo. Enviar 32k tokens contexto RAG añade 1–3 segundos a TTFT en la mayoría.
  • Rate limits. La mayoría hosted cap a 5–20 requests/seg/cuenta. Tráfico spiky es throttled.
  • Cold starts. Primera request después de 5+ minutos idle es 3–8× más lenta. Apps producción necesitan keep-alive pings o tier "always-warm" paid.
  • Overhead speculative decoding. Algunos providers (Anthropic, OpenAI) cobran tokens speculatively-decoded incluso cuando rechazados.
  • Requests fallidos no siempre reembolsan. Streams half-completed de network drops aún facturan tokens completados.

Para forecasting de costo completo capturando inference más infraestructura, usa nuestro Calculador Costo Agente. Para comparación inference-only, usa el Calculador Benchmark Inference.

¿Cuándo correr inference en H100 vs B200 vs A100?

Elección GPU para self-hosted inference:

  • H100 SXM5 — sweet spot 2026 para serving 7B–70B. vLLM/SGLang maduros, FP8 bueno, ~85 tok/seg Llama 4 70B batch=1.
  • B200 — gana para inference sostenido alto volumen. 2× throughput a 1,6× costo = 25% más barato por millón tokens.
  • A100 80GB — solo vale para fine-tunes 7B y embedding generation.
  • H100 PCIe — 35% más barato que SXM5 con 80% throughput. Mejor ROI para workloads sin NVLink.
  • L40S — sorprendentemente competitiva para inference sub-7B y embedding work.

Para pricing por tipo GPU entre 12 cloud providers, ver nuestro Calculador de Precios GPU.

¿Cómo escala throughput con batch size?

Los números batch=1 son streaming-decode (chat UX). Back-ends producción pueden batchear requests para throughput 5–20× mayor:

Batch sizeLlama 4 70B en H100 SXM ×4$/M output efectivo
1 (streaming)85 tok/seg$1,95
8580 tok/seg$0,29
321.800 tok/seg$0,094
64 (max)2.400 tok/seg$0,071

Un pipeline back-end batch puede pegar 7× throughput por dólar de un pipeline streaming chat en el mismo hardware. Por esto Together y Fireworks ofrecen endpoints "batch" separados a tarifas menores.

¿Qué viene después para inference en 2026?

Tres trends a watch:

  1. Normalización supply B200. Q3 2026 esperar precios B200 caer 30–40% mientras supply alcanza demanda.
  2. Disponibilidad cluster GB300. GPUs Blackwell Ultra 1KW empezando a shipear fines 2026.
  3. Competencia chip especializado. AMD MI400, Trainium 3, Tenstorrent posicionándose para market share inference.

Refrescamos data benchmark inference el primero de cada mes. Para planeamiento amplio, el Calculador Precios GPU cubre el lado hardware y el Comparador Precios Tokens cubre pricing proprietary.