Prix GPU Cloud 2026 : AWS vs RunPod vs Vast.ai
Comparaison honnête 2026 des prix de location GPU sur AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs et plus — tarifs horaires H100, A100, B200.
Les prix GPU cloud en 2026 couvrent une fourchette 10× pour du matériel identique — un NVIDIA H100 se loue à 1,49 $/heure sur Hyperbolic et 12,29 $/heure sur AWS, même GPU, même génération. La différence est la fiabilité, le networking, l'écosystème et combien vous êtes prêt à gérer les bords rugueux. Ce guide compare 12 providers à travers la gamme GPU qui compte en 2026 (H100, H200, A100, B200, L40S, RTX 4090) pour que vous puissiez choisir le bon vendor pour votre workload.
Pour des calculs en temps réel du coût mensuel, incluant l'électricité optionnelle, utilisez notre Calculateur de Prix GPU. Pour tokens/sec et dollars-par-million-de-tokens chez chaque provider, voyez le Benchmark d'Inférence.
Quel GPU devriez-vous réellement louer en 2026 ?
Arbre de décision rapide par type de workload :
- Inférence LLM (classe 70B) — H100 SXM est le sweet spot. Passez à B200 si votre exigence de throughput dépasse 150 tokens/sec/utilisateur.
- Inférence LLM (classe 405B) — B200 ×8 est le nouveau plancher ; H100 ×8 marche encore mais prend ~50 % plus longtemps.
- Fine-tuning (LoRA sur 7B–70B) — A100-80GB ou H100-PCIe ; PCIe va bien car LoRA n'est pas NVLink-bound.
- Pre-training complet — H100 SXM5 avec NVLink, minimum nœud 8-GPU. Sautez A100 sauf si le budget est brutal.
- Génération d'embedding ou batch inference — L40S ou même RTX 4090 si vous n'avez pas besoin de >24GB VRAM.
- Expérimentation — RTX A6000 (48GB) sur Vast.ai sous 1 $/heure, ou RTX 4090 si 24GB suffisent.
L'erreur la plus commune que font les équipes est de louer H100 SXM5 quand elles ont en fait besoin de H100 PCIe. La version PCIe est 35 % moins chère chez la plupart des providers et identique pour tout workload qui tient sur un seul GPU.
Combien coûte réellement un H100 entre providers ?
Tarifs horaires H100 SXM5 80GB à mai 2026, triés moins cher d'abord :
| Provider | On-demand | Spot / community | Notes |
|---|---|---|---|
| Hyperbolic | 1,49 $ | — | Style spot ; fiabilité community |
| Vast.ai | 2,40 $ | 1,80 $ | Médiane 24 heures ; community |
| RunPod (Community) | 2,39 $ | 1,65 $ | Le moins cher avec uptime décent |
| RunPod (Secure) | 2,99 $ | 1,99 $ | Grade datacenter |
| Lambda Labs | 2,99 $ | — | Reserved améliore encore |
| CoreWeave | 3,30 $ | — | Enterprise ; généralement requiert un contrat |
| Paperspace | 5,95 $ | — | UI conviviale ; prix grade consumer |
| GCP A3 (us-central1) | 11,06 $ | 5,50 $ | Par GPU à partir d'un nœud A3 8-GPU |
| AWS p5 (us-east-1) | 12,29 $ | 6,40 $ | Par GPU à partir de p5.48xlarge |
| Azure ND-H100-v5 | 12,96 $ | 6,80 $ | Par GPU |
L'écart de prix on-demand est 8,7×. L'écart spot est 4×. Lequel vous choisissez dépend de combien votre runtime valorise le networking, l'IAM et la résidence des données du cloud.
Règle d'or du monde réel : si votre training run est dans un VPC existant avec des données propriétaires, la taxe AWS/GCP/Azure vaut le coup. Si vous faites du research, distillation, fine-tuning ou inference pour une startup, les tarifs hyperscaler sont 4–8× surévalués pour ce que vous obtenez.
Et le B200, le nouveau flagship ?
Le Blackwell B200 (192GB HBM3e, 1 000W TDP) a été livré aux clouds fin 2025. À mai 2026 l'approvisionnement fiable a atteint :
- RunPod (Secure) : 6,39 $/heure on-demand — le moins cher production-grade
- Crusoe Cloud : 5,50 $/heure on-demand
- Lambda Labs : 6,95 $/heure reserved
- AWS (p6e instances) : 18–21 $/heure par GPU — régions limitées
- GCP A3 Ultra : 13,40 $/heure on-demand
Pour l'inference serving, B200 délivre ~165 tokens/sec sur Llama 4 70B à batch=1 contre ~85 tokens/sec sur H100 SXM. Combiné avec ~1,6× le coût, B200 gagne pour l'inference soutenue. Pour l'expérimentation ponctuelle, H100 reste moins cher à lancer.
Si vous avez accès au nouveau rack GB200 NVL72 (72 B200s avec NVLink switch), le throughput d'inference scale sous-linéairement au-delà de 8 GPUs — mais les locations rack-scale restent verrouillées derrière des contrats enterprise en 2026.
Combien pouvez-vous économiser avec spot ou community GPUs ?
Spot économise 30–70 % en échange d'un risque d'eviction. Le risque varie par provider :
| Tier | Fréquence eviction | Meilleur pour |
|---|---|---|
| AWS Spot, GCP Preemptible | Médiane 1–3 jours d'uptime | Training long avec checkpointing |
| Azure Low Priority | Similaire à AWS | Même |
| RunPod Community | Heures à jours | Expériences inference, batch jobs |
| Vast.ai community | Minutes à heures, très variable | Research uniquement |
Un pattern sûr est le déploiement mixed-tier : gardez la capacité on-demand pour le taux de serving baseline, et burst vers spot pour les pics de trafic. Des outils comme SkyPilot, Kueue et dstack rendent ça pratique.
Pour les training runs, les frameworks modernes (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) font des checkpoints toutes les N étapes. Avec un checkpoint de 5 minutes sur un training de 24 heures, une eviction coûte 5 minutes — perte de 2 $ pour économiser 50 % sur un run de 200 $. Spot gagne de manière décisive.
Quels coûts cachés surveiller ?
Les prix GPU titres excluent ces postes qui fréquemment doublent la facture réelle :
- Bandwidth d'egress. AWS facture 0,09 $/GB d'egress. Pour les apps d'inference streaming de longs outputs à des milliers d'utilisateurs, l'egress peut rivaliser avec le coût GPU.
- Storage. EBS, GCP Persistent Disk et Azure Managed Disks facturent séparément. Prévoyez 50–200 $/mois pour un volume 1TB attaché.
- Networking entre régions. Le transfert cross-region est 0,02–0,10 $/GB et s'accumule rapidement pour le training distribué.
- Snapshots / images. Les AMI customs et snapshots sont facturés au tier storage.
- Instances idle. Le GPU le plus cher est celui qui tourne sans trafic. Utilisez auto-shutdown et serving basé sur queue.
- Lock-in reserved instance. Les engagements 1-an et 3-ans économisent 30–60 % mais la capacité stranded coûte plus que le retail.
Pour un breakdown complet incluant l'électricité optionnelle (TDP × PUE × heures × votre tarif), voyez le Calculateur de Prix GPU.
Quand self-host versus louer ?
Le point de croisement en 2026 :
- Louer gagne sous ~4 000 GPU-heures par mois par type de GPU (~5,5 GPUs tournant 24/7). Sous ça, l'overhead opérationnel de gérer vos propres racks datacenter ne vaut pas le coup.
- Co-location gagne entre 4 000–15 000 GPU-heures. Louez de l'espace dans un datacenter existant, achetez les GPUs directement (~30k $/H100), et payez 0,10 $/kWh d'électricité + 200 $/U/mois pour l'espace.
- Posséder gagne au-dessus de 15 000 GPU-heures par mois par type. Vous amortissez le coût GPU sur 2–3 ans et payez le coût marginal pour l'électricité.
Grossièrement : petite startup → louer (probablement RunPod ou Lambda). Équipe AI infra mid-scale → mix de reserved cloud + co-lo. Hyperscale (>50 GPUs) → soit contrat enterprise AWS/GCP soit DC propre.
Le facteur caché que la plupart des équipes sous-budgétisent est operations : drivers GPU, versions CUDA, updates firmware, alarmes puissance/refroidissement, RMA hardware. Un cluster 32-GPU a besoin d'au moins 0,5 FTE de platform engineering même dans un colo managé.
Rassembler le tout
Branchez vos heures/jour, type de GPU et pricing tier dans le Calculateur de Prix GPU pour voir un coût mensuel triable entre 12 providers. Si vous payez aussi de l'inference à scale, croisez avec le Benchmark d'Inférence — parfois un provider plus cher-par-heure gagne en dollars-par-million-de-tokens parce que son throughput est plus élevé. Et pour les workloads agentiques où compute n'est qu'un poste, le Calculateur de Coût de Développement d'Agent sépare compute aux côtés d'orchestration et d'observabilité.
AITOT re-vérifie chaque prix de cet article par rapport à la page officielle du provider le premier de chaque mois. Dernière vérification : 1er mai 2026.