¿Cuál es la nube más barata para alquilar una GPU H100 en 2026?

Hyperbolic a $1.49/hora y Vast.ai a $1.80/hora ofrecen las tarifas H100 SXM más bajas a mayo 2026, ambas con confiabilidad community-tier. RunPod Community Cloud es $1.99/hora con mejor uptime. AWS on-demand es $12.29/hora — 8× más caro.

¿RunPod es más barato que AWS para cargas AI?

Sí. H100 on-demand en RunPod a $2.99/hora es 76% más barato que AWS p5 on-demand a $12.29/hora por GPU. El trade-off es menos regiones, menor bandwidth de red y menos tooling enterprise — bien para training y batch inference, más difícil para HTTP serving en producción.

¿Debería usar instancias GPU spot para producción?

Solo con checkpointing. GPUs spot/preemptibles son 50–75% más baratas pero pueden ser reclamadas en 30 segundos a 2 minutos. Seguro para training runs que checkpoint cada 5 minutos; riesgoso para HTTP serving en producción a menos que pongas una queue al frente.

¿Cómo se compara H100 con B200 en términos de precio-rendimiento?

B200 típicamente entrega 2–2.5× el throughput de H100 SXM para inference, pero alquila por solo 1.5–2× el precio. Así que B200 es mejor para inference sostenido. H100 sigue siendo más barato por GB-de-VRAM-hora para training memory-bound.

¿Qué incluye la tarifa GPU horaria?

La tarifa horaria cubre acceso GPU más CPU, memoria y red base. Egress bandwidth, storage sobre el tier incluido y Kubernetes gestionado se facturan separados. Siempre suma 10–20% al precio GPU titular para un total realista.

¿Los precios GPU cambian durante el día?

Los precios spot fluctúan por hora en Vast.ai y AWS. Los on-demand son estáticos por meses. Siempre cita una mediana 7–30 días para spot, no el precio instantáneo que ves al revisar.

Blog

Precios GPU Cloud 2026: AWS vs RunPod vs Vast.ai

Comparación honesta 2026 de precios de alquiler GPU en AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs y más — tarifas horarias H100, A100, B200.

Updated 2026-05-116 min read· By AITOT Editorial

Los precios GPU cloud en 2026 abarcan un rango 10× para hardware idéntico — un NVIDIA H100 alquila por $1.49/hora en Hyperbolic y $12.29/hora en AWS, misma GPU, misma generación. La diferencia es confiabilidad, networking, ecosistema y qué tanto estés dispuesto a manejar los bordes ásperos. Esta guía compara 12 providers a través de las GPUs que importan en 2026 (H100, H200, A100, B200, L40S, RTX 4090) para que elijas el vendor correcto para tu workload.

Para matemáticas en tiempo real del costo mensual, incluyendo electricidad opcional, usa nuestro Calculador de Precios GPU. Para tokens/seg y dólares-por-millón-de-tokens en cada provider, ve el Benchmark de Inference.

¿Qué GPU deberías alquilar realmente en 2026?

Decision tree rápido por tipo de carga:

LLM inference (clase 70B) — H100 SXM es el sweet spot. Pasa a B200 si tu requerimiento de throughput excede 150 tokens/seg/usuario.
LLM inference (clase 405B) — B200 ×8 es el nuevo piso; H100 ×8 aún funciona pero toma ~50% más tiempo.
Fine-tuning (LoRA en 7B–70B) — A100-80GB o H100-PCIe; PCIe está bien porque LoRA no es NVLink-bound.
Pre-training completo — H100 SXM5 con NVLink, mínimo nodo 8-GPU. Salta A100 a menos que el budget sea brutal.
Generación de embeddings o batch inference — L40S o incluso RTX 4090 si no necesitas >24GB VRAM.
Experimentación — RTX A6000 (48GB) en Vast.ai bajo $1/hora, o RTX 4090 si 24GB alcanzan.

El error más común que cometen los equipos es alquilar H100 SXM5 cuando realmente necesitan H100 PCIe. La versión PCIe es 35% más barata en la mayoría de providers e idéntica para cualquier workload que quepa en una sola GPU.

¿Cuánto cuesta realmente un H100 entre providers?

Tarifas horarias H100 SXM5 80GB a mayo 2026, ordenadas más barato primero:

Provider	On-demand	Spot / community	Notas
Hyperbolic	$1.49	—	Estilo spot; confiabilidad community
Vast.ai	$2.40	$1.80	Mediana 24 horas; community
RunPod (Community)	$2.39	$1.65	Más barato con uptime decente
RunPod (Secure)	$2.99	$1.99	Grade datacenter
Lambda Labs	$2.99	—	Reserved mejora más
CoreWeave	$3.30	—	Enterprise; usualmente requiere contrato
Paperspace	$5.95	—	UI amigable; precio grade consumer
GCP A3 (us-central1)	$11.06	$5.50	Por GPU de nodo A3 de 8
AWS p5 (us-east-1)	$12.29	$6.40	Por GPU de p5.48xlarge
Azure ND-H100-v5	$12.96	$6.80	Por GPU

El spread de precio on-demand es 8.7×. El spread spot es 4×. Cuál eliges depende de cuánto valore tu runtime el networking, IAM y residencia de datos de la nube.

Regla de oro del mundo real: si tu training run está dentro de un VPC existente con datos propietarios, el impuesto AWS/GCP/Azure vale la pena. Si haces research, distillation, fine-tuning o inference para una startup, las tarifas hyperscaler son 4–8× sobrevaloradas por lo que obtienes.

¿Y qué hay del B200, el nuevo flagship?

El Blackwell B200 (192GB HBM3e, 1,000W TDP) llegó a las nubes a fines de 2025. Para mayo 2026 el suministro confiable alcanzó:

RunPod (Secure): $6.39/hora on-demand — más barato production-grade
Crusoe Cloud: $5.50/hora on-demand
Lambda Labs: $6.95/hora reserved
AWS (p6e instances): $18–21/hora por GPU — regiones limitadas
GCP A3 Ultra: $13.40/hora on-demand

Para inference serving, B200 entrega ~165 tokens/seg en Llama 4 70B a batch=1 vs ~85 tokens/seg en H100 SXM. Combinado con ~1.6× el costo, B200 gana para inference sostenido. Para experimentación puntual, H100 sigue siendo más barato de levantar.

Si tienes acceso al nuevo rack GB200 NVL72 (72 B200s con NVLink switch), el throughput de inference escala sub-linealmente más allá de 8 GPUs — pero los alquileres rack-scale aún están detrás de contratos enterprise en 2026.

¿Cuánto puedes ahorrar con spot o community GPUs?

Spot ahorra 30–70% a cambio de riesgo de eviction. El riesgo varía por provider:

Tier	Frecuencia eviction	Mejor para
AWS Spot, GCP Preemptible	Mediana 1–3 días uptime	Training largo con checkpointing
Azure Low Priority	Similar a AWS	Mismo
RunPod Community	Horas a días	Experimentos inference, batch jobs
Vast.ai community	Minutos a horas, muy variable	Solo research

Un patrón seguro es deployment mixed-tier: mantén capacidad on-demand para la tasa de serving baseline, y burst a spot para picos de tráfico. Tools como SkyPilot, Kueue y dstack hacen esto práctico.

Para training runs, los frameworks modernos (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) hacen checkpoint cada N pasos. Con checkpoint cada 5 minutos en una corrida de 24 horas, una eviction cuesta 5 minutos — pérdida de $2 para ahorrar 50% en una corrida de $200. Spot gana decisivamente.

¿Qué costos ocultos vigilar?

Los precios GPU titulares excluyen estas partidas que frecuentemente duplican el recibo real:

Bandwidth de egress. AWS cobra $0.09/GB egress. Para apps de inference streaming outputs largos a miles de usuarios, el egress puede rivalizar con el costo GPU.
Storage. EBS, GCP Persistent Disk y Azure Managed Disks facturan separados. Planea $50–200/mes para un volumen 1TB adjunto.
Networking entre regiones. Transferencia cross-region es $0.02–0.10/GB y suma rápido para training distribuido.
Snapshots / images. AMIs custom y snapshots se facturan a tier storage.
Instancias idle. La GPU más cara es la que corre sin tráfico. Usa auto-shutdown y serving basado en queue.
Lock-in de reserved instances. Compromisos 1-año y 3-años ahorran 30–60% pero capacidad stranded cuesta más que retail.

Para un desglose completo incluyendo electricidad opcional (TDP × PUE × horas × tu tarifa), ve el Calculador de Precios GPU.

¿Cuándo self-host versus alquilar?

El punto de cruce en 2026:

Alquilar gana debajo de ~4,000 GPU-horas por mes por tipo de GPU (~5.5 GPUs corriendo 24/7). Debajo de esto, el overhead operacional de correr tus propios racks de datacenter no vale la pena.
Co-location gana entre 4,000–15,000 GPU-horas. Renta espacio en un datacenter existente, compra GPUs directamente (~$30k/H100) y paga $0.10/kWh de electricidad + $200/U/mes por espacio.
Poseer gana sobre 15,000 GPU-horas por mes por tipo. Amortizas el costo GPU sobre 2–3 años y pagas costo marginal por electricidad.

A grosso modo: startup pequeña → alquilar (probablemente RunPod o Lambda). Equipo AI infra mid-scale → mix de reserved cloud + co-lo. Hyperscale (>50 GPUs) → o contrato AWS/GCP enterprise o DC propio.

El factor oculto que la mayoría de equipos subestima es operaciones: drivers GPU, versiones CUDA, updates de firmware, alarmas de potencia/cooling, RMA hardware. Un cluster de 32 GPUs necesita al menos 0.5 FTE de platform engineering incluso en un colo gestionado.

Juntándolo todo

Mete tus horas/día, tipo GPU y pricing tier en el Calculador de Precios GPU para ver un costo mensual ordenable entre 12 providers. Si también estás pagando inference a escala, cruza con el Benchmark de Inference — a veces un provider más caro por hora gana en dólares-por-millón-de-tokens porque su throughput es mayor. Y para workloads agentic donde compute es solo una partida, el Calculador de Costo de Desarrollo de Agentes separa compute junto a orchestration y observabilidad.

AITOT re-verifica cada precio en este artículo contra la página oficial del provider el primer día de cada mes. Última verificación: 1 de mayo, 2026.