Quel est le cloud le moins cher pour louer un GPU H100 en 2026 ?

Hyperbolic à 1,49 $/heure et Vast.ai à 1,80 $/heure offrent les tarifs H100 SXM les plus bas à mai 2026, tous deux avec une fiabilité community-tier. RunPod Community Cloud à 1,99 $/heure avec un meilleur uptime. AWS on-demand à 12,29 $/heure — 8× plus cher.

RunPod est-il moins cher qu'AWS pour les workloads IA ?

Oui. H100 on-demand sur RunPod à 2,99 $/heure est 76 % moins cher qu'AWS p5 on-demand à 12,29 $/heure par GPU. Le compromis : moins de régions, bandwidth réseau plus petite et moins d'outils enterprise — bien pour le training et le batch inference, plus dur pour le HTTP serving en production.

Devrais-je utiliser des instances GPU spot pour la production ?

Uniquement avec checkpointing. Les GPU spot/preemptible sont 50–75 % moins chers mais peuvent être réclamés en 30 secondes à 2 minutes. Sûr pour les training runs qui font des checkpoints toutes les 5 minutes ; risqué pour le HTTP serving en production sauf si vous mettez une queue devant.

Comment H100 se compare-t-il à B200 en prix-performance ?

B200 délivre typiquement 2–2,5× le throughput de H100 SXM pour l'inference, mais se loue à seulement 1,5–2× le prix. Donc B200 est la meilleure affaire pour les workloads d'inference soutenus. H100 reste moins cher par GB-de-VRAM-heure pour le training memory-bound.

Qu'est-ce qui est inclus dans le tarif horaire GPU ?

Le tarif horaire couvre l'accès GPU plus un CPU, mémoire et réseau de base. L'egress bandwidth, le storage au-delà du tier inclus et Kubernetes managé sont habituellement facturés séparément. Ajoutez toujours 10–20 % au prix GPU titre pour un total réaliste.

Les prix GPU changent-ils au cours de la journée ?

Les prix spot fluctuent à l'heure sur Vast.ai et AWS. Les prix on-demand sont stables pendant des mois. Citez toujours une médiane 7–30 jours pour le spot, pas le prix instantané que vous voyez en regardant.

Blog

Prix GPU Cloud 2026 : AWS vs RunPod vs Vast.ai

Comparaison honnête 2026 des prix de location GPU sur AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs et plus — tarifs horaires H100, A100, B200.

Updated 2026-05-117 min read· By AITOT Editorial

Les prix GPU cloud en 2026 couvrent une fourchette 10× pour du matériel identique — un NVIDIA H100 se loue à 1,49 $/heure sur Hyperbolic et 12,29 $/heure sur AWS, même GPU, même génération. La différence est la fiabilité, le networking, l'écosystème et combien vous êtes prêt à gérer les bords rugueux. Ce guide compare 12 providers à travers la gamme GPU qui compte en 2026 (H100, H200, A100, B200, L40S, RTX 4090) pour que vous puissiez choisir le bon vendor pour votre workload.

Pour des calculs en temps réel du coût mensuel, incluant l'électricité optionnelle, utilisez notre Calculateur de Prix GPU. Pour tokens/sec et dollars-par-million-de-tokens chez chaque provider, voyez le Benchmark d'Inférence.

Quel GPU devriez-vous réellement louer en 2026 ?

Arbre de décision rapide par type de workload :

Inférence LLM (classe 70B) — H100 SXM est le sweet spot. Passez à B200 si votre exigence de throughput dépasse 150 tokens/sec/utilisateur.
Inférence LLM (classe 405B) — B200 ×8 est le nouveau plancher ; H100 ×8 marche encore mais prend ~50 % plus longtemps.
Fine-tuning (LoRA sur 7B–70B) — A100-80GB ou H100-PCIe ; PCIe va bien car LoRA n'est pas NVLink-bound.
Pre-training complet — H100 SXM5 avec NVLink, minimum nœud 8-GPU. Sautez A100 sauf si le budget est brutal.
Génération d'embedding ou batch inference — L40S ou même RTX 4090 si vous n'avez pas besoin de >24GB VRAM.
Expérimentation — RTX A6000 (48GB) sur Vast.ai sous 1 $/heure, ou RTX 4090 si 24GB suffisent.

L'erreur la plus commune que font les équipes est de louer H100 SXM5 quand elles ont en fait besoin de H100 PCIe. La version PCIe est 35 % moins chère chez la plupart des providers et identique pour tout workload qui tient sur un seul GPU.

Combien coûte réellement un H100 entre providers ?

Tarifs horaires H100 SXM5 80GB à mai 2026, triés moins cher d'abord :

Provider	On-demand	Spot / community	Notes
Hyperbolic	1,49 $	—	Style spot ; fiabilité community
Vast.ai	2,40 $	1,80 $	Médiane 24 heures ; community
RunPod (Community)	2,39 $	1,65 $	Le moins cher avec uptime décent
RunPod (Secure)	2,99 $	1,99 $	Grade datacenter
Lambda Labs	2,99 $	—	Reserved améliore encore
CoreWeave	3,30 $	—	Enterprise ; généralement requiert un contrat
Paperspace	5,95 $	—	UI conviviale ; prix grade consumer
GCP A3 (us-central1)	11,06 $	5,50 $	Par GPU à partir d'un nœud A3 8-GPU
AWS p5 (us-east-1)	12,29 $	6,40 $	Par GPU à partir de p5.48xlarge
Azure ND-H100-v5	12,96 $	6,80 $	Par GPU

L'écart de prix on-demand est 8,7×. L'écart spot est 4×. Lequel vous choisissez dépend de combien votre runtime valorise le networking, l'IAM et la résidence des données du cloud.

Règle d'or du monde réel : si votre training run est dans un VPC existant avec des données propriétaires, la taxe AWS/GCP/Azure vaut le coup. Si vous faites du research, distillation, fine-tuning ou inference pour une startup, les tarifs hyperscaler sont 4–8× surévalués pour ce que vous obtenez.

Et le B200, le nouveau flagship ?

Le Blackwell B200 (192GB HBM3e, 1 000W TDP) a été livré aux clouds fin 2025. À mai 2026 l'approvisionnement fiable a atteint :

RunPod (Secure) : 6,39 $/heure on-demand — le moins cher production-grade
Crusoe Cloud : 5,50 $/heure on-demand
Lambda Labs : 6,95 $/heure reserved
AWS (p6e instances) : 18–21 $/heure par GPU — régions limitées
GCP A3 Ultra : 13,40 $/heure on-demand

Pour l'inference serving, B200 délivre ~165 tokens/sec sur Llama 4 70B à batch=1 contre ~85 tokens/sec sur H100 SXM. Combiné avec ~1,6× le coût, B200 gagne pour l'inference soutenue. Pour l'expérimentation ponctuelle, H100 reste moins cher à lancer.

Si vous avez accès au nouveau rack GB200 NVL72 (72 B200s avec NVLink switch), le throughput d'inference scale sous-linéairement au-delà de 8 GPUs — mais les locations rack-scale restent verrouillées derrière des contrats enterprise en 2026.

Combien pouvez-vous économiser avec spot ou community GPUs ?

Spot économise 30–70 % en échange d'un risque d'eviction. Le risque varie par provider :

Tier	Fréquence eviction	Meilleur pour
AWS Spot, GCP Preemptible	Médiane 1–3 jours d'uptime	Training long avec checkpointing
Azure Low Priority	Similaire à AWS	Même
RunPod Community	Heures à jours	Expériences inference, batch jobs
Vast.ai community	Minutes à heures, très variable	Research uniquement

Un pattern sûr est le déploiement mixed-tier : gardez la capacité on-demand pour le taux de serving baseline, et burst vers spot pour les pics de trafic. Des outils comme SkyPilot, Kueue et dstack rendent ça pratique.

Pour les training runs, les frameworks modernes (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) font des checkpoints toutes les N étapes. Avec un checkpoint de 5 minutes sur un training de 24 heures, une eviction coûte 5 minutes — perte de 2 $ pour économiser 50 % sur un run de 200 $. Spot gagne de manière décisive.

Quels coûts cachés surveiller ?

Les prix GPU titres excluent ces postes qui fréquemment doublent la facture réelle :

Bandwidth d'egress. AWS facture 0,09 $/GB d'egress. Pour les apps d'inference streaming de longs outputs à des milliers d'utilisateurs, l'egress peut rivaliser avec le coût GPU.
Storage. EBS, GCP Persistent Disk et Azure Managed Disks facturent séparément. Prévoyez 50–200 $/mois pour un volume 1TB attaché.
Networking entre régions. Le transfert cross-region est 0,02–0,10 $/GB et s'accumule rapidement pour le training distribué.
Snapshots / images. Les AMI customs et snapshots sont facturés au tier storage.
Instances idle. Le GPU le plus cher est celui qui tourne sans trafic. Utilisez auto-shutdown et serving basé sur queue.
Lock-in reserved instance. Les engagements 1-an et 3-ans économisent 30–60 % mais la capacité stranded coûte plus que le retail.

Pour un breakdown complet incluant l'électricité optionnelle (TDP × PUE × heures × votre tarif), voyez le Calculateur de Prix GPU.

Quand self-host versus louer ?

Le point de croisement en 2026 :

Louer gagne sous ~4 000 GPU-heures par mois par type de GPU (~5,5 GPUs tournant 24/7). Sous ça, l'overhead opérationnel de gérer vos propres racks datacenter ne vaut pas le coup.
Co-location gagne entre 4 000–15 000 GPU-heures. Louez de l'espace dans un datacenter existant, achetez les GPUs directement (~30k $/H100), et payez 0,10 $/kWh d'électricité + 200 $/U/mois pour l'espace.
Posséder gagne au-dessus de 15 000 GPU-heures par mois par type. Vous amortissez le coût GPU sur 2–3 ans et payez le coût marginal pour l'électricité.

Grossièrement : petite startup → louer (probablement RunPod ou Lambda). Équipe AI infra mid-scale → mix de reserved cloud + co-lo. Hyperscale (>50 GPUs) → soit contrat enterprise AWS/GCP soit DC propre.

Le facteur caché que la plupart des équipes sous-budgétisent est operations : drivers GPU, versions CUDA, updates firmware, alarmes puissance/refroidissement, RMA hardware. Un cluster 32-GPU a besoin d'au moins 0,5 FTE de platform engineering même dans un colo managé.

Rassembler le tout

Branchez vos heures/jour, type de GPU et pricing tier dans le Calculateur de Prix GPU pour voir un coût mensuel triable entre 12 providers. Si vous payez aussi de l'inference à scale, croisez avec le Benchmark d'Inférence — parfois un provider plus cher-par-heure gagne en dollars-par-million-de-tokens parce que son throughput est plus élevé. Et pour les workloads agentiques où compute n'est qu'un poste, le Calculateur de Coût de Développement d'Agent sépare compute aux côtés d'orchestration et d'observabilité.

AITOT re-vérifie chaque prix de cet article par rapport à la page officielle du provider le premier de chaque mois. Dernière vérification : 1er mai 2026.