AITOT
Blog

Precios GPU Cloud 2026: AWS vs RunPod vs Vast.ai

Comparación honesta 2026 de precios de alquiler GPU en AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs y más — tarifas horarias H100, A100, B200.

6 min read· By AITOT Editorial

Los precios GPU cloud en 2026 abarcan un rango 10× para hardware idéntico — un NVIDIA H100 alquila por $1.49/hora en Hyperbolic y $12.29/hora en AWS, misma GPU, misma generación. La diferencia es confiabilidad, networking, ecosistema y qué tanto estés dispuesto a manejar los bordes ásperos. Esta guía compara 12 providers a través de las GPUs que importan en 2026 (H100, H200, A100, B200, L40S, RTX 4090) para que elijas el vendor correcto para tu workload.

Para matemáticas en tiempo real del costo mensual, incluyendo electricidad opcional, usa nuestro Calculador de Precios GPU. Para tokens/seg y dólares-por-millón-de-tokens en cada provider, ve el Benchmark de Inference.

¿Qué GPU deberías alquilar realmente en 2026?

Decision tree rápido por tipo de carga:

  • LLM inference (clase 70B) — H100 SXM es el sweet spot. Pasa a B200 si tu requerimiento de throughput excede 150 tokens/seg/usuario.
  • LLM inference (clase 405B) — B200 ×8 es el nuevo piso; H100 ×8 aún funciona pero toma ~50% más tiempo.
  • Fine-tuning (LoRA en 7B–70B) — A100-80GB o H100-PCIe; PCIe está bien porque LoRA no es NVLink-bound.
  • Pre-training completo — H100 SXM5 con NVLink, mínimo nodo 8-GPU. Salta A100 a menos que el budget sea brutal.
  • Generación de embeddings o batch inference — L40S o incluso RTX 4090 si no necesitas >24GB VRAM.
  • Experimentación — RTX A6000 (48GB) en Vast.ai bajo $1/hora, o RTX 4090 si 24GB alcanzan.

El error más común que cometen los equipos es alquilar H100 SXM5 cuando realmente necesitan H100 PCIe. La versión PCIe es 35% más barata en la mayoría de providers e idéntica para cualquier workload que quepa en una sola GPU.

¿Cuánto cuesta realmente un H100 entre providers?

Tarifas horarias H100 SXM5 80GB a mayo 2026, ordenadas más barato primero:

ProviderOn-demandSpot / communityNotas
Hyperbolic$1.49Estilo spot; confiabilidad community
Vast.ai$2.40$1.80Mediana 24 horas; community
RunPod (Community)$2.39$1.65Más barato con uptime decente
RunPod (Secure)$2.99$1.99Grade datacenter
Lambda Labs$2.99Reserved mejora más
CoreWeave$3.30Enterprise; usualmente requiere contrato
Paperspace$5.95UI amigable; precio grade consumer
GCP A3 (us-central1)$11.06$5.50Por GPU de nodo A3 de 8
AWS p5 (us-east-1)$12.29$6.40Por GPU de p5.48xlarge
Azure ND-H100-v5$12.96$6.80Por GPU

El spread de precio on-demand es 8.7×. El spread spot es 4×. Cuál eliges depende de cuánto valore tu runtime el networking, IAM y residencia de datos de la nube.

Regla de oro del mundo real: si tu training run está dentro de un VPC existente con datos propietarios, el impuesto AWS/GCP/Azure vale la pena. Si haces research, distillation, fine-tuning o inference para una startup, las tarifas hyperscaler son 4–8× sobrevaloradas por lo que obtienes.

¿Y qué hay del B200, el nuevo flagship?

El Blackwell B200 (192GB HBM3e, 1,000W TDP) llegó a las nubes a fines de 2025. Para mayo 2026 el suministro confiable alcanzó:

  • RunPod (Secure): $6.39/hora on-demand — más barato production-grade
  • Crusoe Cloud: $5.50/hora on-demand
  • Lambda Labs: $6.95/hora reserved
  • AWS (p6e instances): $18–21/hora por GPU — regiones limitadas
  • GCP A3 Ultra: $13.40/hora on-demand

Para inference serving, B200 entrega ~165 tokens/seg en Llama 4 70B a batch=1 vs ~85 tokens/seg en H100 SXM. Combinado con ~1.6× el costo, B200 gana para inference sostenido. Para experimentación puntual, H100 sigue siendo más barato de levantar.

Si tienes acceso al nuevo rack GB200 NVL72 (72 B200s con NVLink switch), el throughput de inference escala sub-linealmente más allá de 8 GPUs — pero los alquileres rack-scale aún están detrás de contratos enterprise en 2026.

¿Cuánto puedes ahorrar con spot o community GPUs?

Spot ahorra 30–70% a cambio de riesgo de eviction. El riesgo varía por provider:

TierFrecuencia evictionMejor para
AWS Spot, GCP PreemptibleMediana 1–3 días uptimeTraining largo con checkpointing
Azure Low PrioritySimilar a AWSMismo
RunPod CommunityHoras a díasExperimentos inference, batch jobs
Vast.ai communityMinutos a horas, muy variableSolo research

Un patrón seguro es deployment mixed-tier: mantén capacidad on-demand para la tasa de serving baseline, y burst a spot para picos de tráfico. Tools como SkyPilot, Kueue y dstack hacen esto práctico.

Para training runs, los frameworks modernos (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) hacen checkpoint cada N pasos. Con checkpoint cada 5 minutos en una corrida de 24 horas, una eviction cuesta 5 minutos — pérdida de $2 para ahorrar 50% en una corrida de $200. Spot gana decisivamente.

¿Qué costos ocultos vigilar?

Los precios GPU titulares excluyen estas partidas que frecuentemente duplican el recibo real:

  • Bandwidth de egress. AWS cobra $0.09/GB egress. Para apps de inference streaming outputs largos a miles de usuarios, el egress puede rivalizar con el costo GPU.
  • Storage. EBS, GCP Persistent Disk y Azure Managed Disks facturan separados. Planea $50–200/mes para un volumen 1TB adjunto.
  • Networking entre regiones. Transferencia cross-region es $0.02–0.10/GB y suma rápido para training distribuido.
  • Snapshots / images. AMIs custom y snapshots se facturan a tier storage.
  • Instancias idle. La GPU más cara es la que corre sin tráfico. Usa auto-shutdown y serving basado en queue.
  • Lock-in de reserved instances. Compromisos 1-año y 3-años ahorran 30–60% pero capacidad stranded cuesta más que retail.

Para un desglose completo incluyendo electricidad opcional (TDP × PUE × horas × tu tarifa), ve el Calculador de Precios GPU.

¿Cuándo self-host versus alquilar?

El punto de cruce en 2026:

  • Alquilar gana debajo de ~4,000 GPU-horas por mes por tipo de GPU (~5.5 GPUs corriendo 24/7). Debajo de esto, el overhead operacional de correr tus propios racks de datacenter no vale la pena.
  • Co-location gana entre 4,000–15,000 GPU-horas. Renta espacio en un datacenter existente, compra GPUs directamente (~$30k/H100) y paga $0.10/kWh de electricidad + $200/U/mes por espacio.
  • Poseer gana sobre 15,000 GPU-horas por mes por tipo. Amortizas el costo GPU sobre 2–3 años y pagas costo marginal por electricidad.

A grosso modo: startup pequeña → alquilar (probablemente RunPod o Lambda). Equipo AI infra mid-scale → mix de reserved cloud + co-lo. Hyperscale (>50 GPUs) → o contrato AWS/GCP enterprise o DC propio.

El factor oculto que la mayoría de equipos subestima es operaciones: drivers GPU, versiones CUDA, updates de firmware, alarmas de potencia/cooling, RMA hardware. Un cluster de 32 GPUs necesita al menos 0.5 FTE de platform engineering incluso en un colo gestionado.

Juntándolo todo

Mete tus horas/día, tipo GPU y pricing tier en el Calculador de Precios GPU para ver un costo mensual ordenable entre 12 providers. Si también estás pagando inference a escala, cruza con el Benchmark de Inference — a veces un provider más caro por hora gana en dólares-por-millón-de-tokens porque su throughput es mayor. Y para workloads agentic donde compute es solo una partida, el Calculador de Costo de Desarrollo de Agentes separa compute junto a orchestration y observabilidad.

AITOT re-verifica cada precio en este artículo contra la página oficial del provider el primer día de cada mes. Última verificación: 1 de mayo, 2026.