Precios GPU Cloud 2026: AWS vs RunPod vs Vast.ai
Comparación honesta 2026 de precios de alquiler GPU en AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs y más — tarifas horarias H100, A100, B200.
Los precios GPU cloud en 2026 abarcan un rango 10× para hardware idéntico — un NVIDIA H100 alquila por $1.49/hora en Hyperbolic y $12.29/hora en AWS, misma GPU, misma generación. La diferencia es confiabilidad, networking, ecosistema y qué tanto estés dispuesto a manejar los bordes ásperos. Esta guía compara 12 providers a través de las GPUs que importan en 2026 (H100, H200, A100, B200, L40S, RTX 4090) para que elijas el vendor correcto para tu workload.
Para matemáticas en tiempo real del costo mensual, incluyendo electricidad opcional, usa nuestro Calculador de Precios GPU. Para tokens/seg y dólares-por-millón-de-tokens en cada provider, ve el Benchmark de Inference.
¿Qué GPU deberías alquilar realmente en 2026?
Decision tree rápido por tipo de carga:
- LLM inference (clase 70B) — H100 SXM es el sweet spot. Pasa a B200 si tu requerimiento de throughput excede 150 tokens/seg/usuario.
- LLM inference (clase 405B) — B200 ×8 es el nuevo piso; H100 ×8 aún funciona pero toma ~50% más tiempo.
- Fine-tuning (LoRA en 7B–70B) — A100-80GB o H100-PCIe; PCIe está bien porque LoRA no es NVLink-bound.
- Pre-training completo — H100 SXM5 con NVLink, mínimo nodo 8-GPU. Salta A100 a menos que el budget sea brutal.
- Generación de embeddings o batch inference — L40S o incluso RTX 4090 si no necesitas >24GB VRAM.
- Experimentación — RTX A6000 (48GB) en Vast.ai bajo $1/hora, o RTX 4090 si 24GB alcanzan.
El error más común que cometen los equipos es alquilar H100 SXM5 cuando realmente necesitan H100 PCIe. La versión PCIe es 35% más barata en la mayoría de providers e idéntica para cualquier workload que quepa en una sola GPU.
¿Cuánto cuesta realmente un H100 entre providers?
Tarifas horarias H100 SXM5 80GB a mayo 2026, ordenadas más barato primero:
| Provider | On-demand | Spot / community | Notas |
|---|---|---|---|
| Hyperbolic | $1.49 | — | Estilo spot; confiabilidad community |
| Vast.ai | $2.40 | $1.80 | Mediana 24 horas; community |
| RunPod (Community) | $2.39 | $1.65 | Más barato con uptime decente |
| RunPod (Secure) | $2.99 | $1.99 | Grade datacenter |
| Lambda Labs | $2.99 | — | Reserved mejora más |
| CoreWeave | $3.30 | — | Enterprise; usualmente requiere contrato |
| Paperspace | $5.95 | — | UI amigable; precio grade consumer |
| GCP A3 (us-central1) | $11.06 | $5.50 | Por GPU de nodo A3 de 8 |
| AWS p5 (us-east-1) | $12.29 | $6.40 | Por GPU de p5.48xlarge |
| Azure ND-H100-v5 | $12.96 | $6.80 | Por GPU |
El spread de precio on-demand es 8.7×. El spread spot es 4×. Cuál eliges depende de cuánto valore tu runtime el networking, IAM y residencia de datos de la nube.
Regla de oro del mundo real: si tu training run está dentro de un VPC existente con datos propietarios, el impuesto AWS/GCP/Azure vale la pena. Si haces research, distillation, fine-tuning o inference para una startup, las tarifas hyperscaler son 4–8× sobrevaloradas por lo que obtienes.
¿Y qué hay del B200, el nuevo flagship?
El Blackwell B200 (192GB HBM3e, 1,000W TDP) llegó a las nubes a fines de 2025. Para mayo 2026 el suministro confiable alcanzó:
- RunPod (Secure): $6.39/hora on-demand — más barato production-grade
- Crusoe Cloud: $5.50/hora on-demand
- Lambda Labs: $6.95/hora reserved
- AWS (p6e instances): $18–21/hora por GPU — regiones limitadas
- GCP A3 Ultra: $13.40/hora on-demand
Para inference serving, B200 entrega ~165 tokens/seg en Llama 4 70B a batch=1 vs ~85 tokens/seg en H100 SXM. Combinado con ~1.6× el costo, B200 gana para inference sostenido. Para experimentación puntual, H100 sigue siendo más barato de levantar.
Si tienes acceso al nuevo rack GB200 NVL72 (72 B200s con NVLink switch), el throughput de inference escala sub-linealmente más allá de 8 GPUs — pero los alquileres rack-scale aún están detrás de contratos enterprise en 2026.
¿Cuánto puedes ahorrar con spot o community GPUs?
Spot ahorra 30–70% a cambio de riesgo de eviction. El riesgo varía por provider:
| Tier | Frecuencia eviction | Mejor para |
|---|---|---|
| AWS Spot, GCP Preemptible | Mediana 1–3 días uptime | Training largo con checkpointing |
| Azure Low Priority | Similar a AWS | Mismo |
| RunPod Community | Horas a días | Experimentos inference, batch jobs |
| Vast.ai community | Minutos a horas, muy variable | Solo research |
Un patrón seguro es deployment mixed-tier: mantén capacidad on-demand para la tasa de serving baseline, y burst a spot para picos de tráfico. Tools como SkyPilot, Kueue y dstack hacen esto práctico.
Para training runs, los frameworks modernos (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) hacen checkpoint cada N pasos. Con checkpoint cada 5 minutos en una corrida de 24 horas, una eviction cuesta 5 minutos — pérdida de $2 para ahorrar 50% en una corrida de $200. Spot gana decisivamente.
¿Qué costos ocultos vigilar?
Los precios GPU titulares excluyen estas partidas que frecuentemente duplican el recibo real:
- Bandwidth de egress. AWS cobra $0.09/GB egress. Para apps de inference streaming outputs largos a miles de usuarios, el egress puede rivalizar con el costo GPU.
- Storage. EBS, GCP Persistent Disk y Azure Managed Disks facturan separados. Planea $50–200/mes para un volumen 1TB adjunto.
- Networking entre regiones. Transferencia cross-region es $0.02–0.10/GB y suma rápido para training distribuido.
- Snapshots / images. AMIs custom y snapshots se facturan a tier storage.
- Instancias idle. La GPU más cara es la que corre sin tráfico. Usa auto-shutdown y serving basado en queue.
- Lock-in de reserved instances. Compromisos 1-año y 3-años ahorran 30–60% pero capacidad stranded cuesta más que retail.
Para un desglose completo incluyendo electricidad opcional (TDP × PUE × horas × tu tarifa), ve el Calculador de Precios GPU.
¿Cuándo self-host versus alquilar?
El punto de cruce en 2026:
- Alquilar gana debajo de ~4,000 GPU-horas por mes por tipo de GPU (~5.5 GPUs corriendo 24/7). Debajo de esto, el overhead operacional de correr tus propios racks de datacenter no vale la pena.
- Co-location gana entre 4,000–15,000 GPU-horas. Renta espacio en un datacenter existente, compra GPUs directamente (~$30k/H100) y paga $0.10/kWh de electricidad + $200/U/mes por espacio.
- Poseer gana sobre 15,000 GPU-horas por mes por tipo. Amortizas el costo GPU sobre 2–3 años y pagas costo marginal por electricidad.
A grosso modo: startup pequeña → alquilar (probablemente RunPod o Lambda). Equipo AI infra mid-scale → mix de reserved cloud + co-lo. Hyperscale (>50 GPUs) → o contrato AWS/GCP enterprise o DC propio.
El factor oculto que la mayoría de equipos subestima es operaciones: drivers GPU, versiones CUDA, updates de firmware, alarmas de potencia/cooling, RMA hardware. Un cluster de 32 GPUs necesita al menos 0.5 FTE de platform engineering incluso en un colo gestionado.
Juntándolo todo
Mete tus horas/día, tipo GPU y pricing tier en el Calculador de Precios GPU para ver un costo mensual ordenable entre 12 providers. Si también estás pagando inference a escala, cruza con el Benchmark de Inference — a veces un provider más caro por hora gana en dólares-por-millón-de-tokens porque su throughput es mayor. Y para workloads agentic donde compute es solo una partida, el Calculador de Costo de Desarrollo de Agentes separa compute junto a orchestration y observabilidad.
AITOT re-verifica cada precio en este artículo contra la página oficial del provider el primer día de cada mes. Última verificación: 1 de mayo, 2026.