Harga GPU Cloud 2026: AWS vs RunPod vs Vast.ai
Perbandingan jujur harga sewa GPU 2026 di AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs, dan lainnya — tarif per jam H100, A100, B200.
Harga GPU cloud di 2026 mencakup rentang 10× untuk hardware identik — NVIDIA H100 disewa $1,49/jam di Hyperbolic dan $12,29/jam di AWS, GPU sama, generasi sama. Bedanya adalah reliability, networking, ekosistem, dan seberapa rela Anda menangani rough edges. Panduan ini membandingkan 12 provider di lineup GPU yang penting di 2026 (H100, H200, A100, B200, L40S, RTX 4090) sehingga Anda bisa memilih vendor yang tepat untuk workload Anda.
Untuk matematika real-time biaya bulanan, termasuk listrik opsional, gunakan Kalkulator Harga GPU. Untuk token/detik dan dolar-per-juta-token di setiap provider, lihat Benchmark Inference.
GPU mana yang sebenarnya harus Anda sewa di 2026?
Decision tree cepat berdasarkan jenis workload:
- LLM inference (kelas 70B) — H100 SXM adalah sweet spot. Pindah ke B200 jika kebutuhan throughput Anda melampaui 150 token/detik/user.
- LLM inference (kelas 405B) — B200 ×8 adalah lantai baru; H100 ×8 masih bekerja tapi 50% lebih lambat.
- Fine-tuning (LoRA pada 7B–70B) — A100-80GB atau H100-PCIe; PCIe oke karena LoRA tidak NVLink-bound.
- Pre-training penuh — H100 SXM5 dengan NVLink, minimum node 8-GPU. Lewati A100 kecuali anggaran brutal.
- Generasi embedding atau batch inference — L40S atau bahkan RTX 4090 jika tidak butuh >24GB VRAM.
- Eksperimentasi — RTX A6000 (48GB) di Vast.ai di bawah $1/jam, atau RTX 4090 jika 24GB cukup.
Kesalahan paling umum yang dibuat tim adalah menyewa H100 SXM5 padahal sebenarnya butuh H100 PCIe. Versi PCIe 35% lebih murah di sebagian besar provider dan identik untuk workload yang muat di satu GPU.
Berapa biaya H100 sebenarnya antar provider?
Tarif per jam H100 SXM5 80GB per Mei 2026, diurutkan termurah dulu:
| Provider | On-demand | Spot / community | Catatan |
|---|---|---|---|
| Hyperbolic | $1,49 | — | Style spot; reliability community |
| Vast.ai | $2,40 | $1,80 | Median 24 jam; community |
| RunPod (Community) | $2,39 | $1,65 | Termurah dengan uptime layak |
| RunPod (Secure) | $2,99 | $1,99 | Grade datacenter |
| Lambda Labs | $2,99 | — | Reserved meningkatkan lebih jauh |
| CoreWeave | $3,30 | — | Enterprise; biasanya butuh kontrak |
| Paperspace | $5,95 | — | UI ramah; harga grade consumer |
| GCP A3 (us-central1) | $11,06 | $5,50 | Per GPU dari node A3 8-GPU |
| AWS p5 (us-east-1) | $12,29 | $6,40 | Per GPU dari p5.48xlarge |
| Azure ND-H100-v5 | $12,96 | $6,80 | Per GPU |
Spread harga on-demand 8,7×. Spread harga spot 4×. Mana yang Anda pilih tergantung seberapa banyak runtime Anda menghargai networking, IAM, dan data residency cloud.
Rule of thumb dunia nyata: jika training run Anda di dalam VPC yang ada dengan data proprietary, pajak AWS/GCP/Azure layak dibayar. Jika Anda melakukan research, distillation, fine-tuning, atau inference untuk startup, tarif hyperscaler 4–8× overpriced untuk apa yang Anda dapatkan.
Bagaimana dengan B200, flagship baru?
Blackwell B200 (192GB HBM3e, 1.000W TDP) dikirim ke cloud akhir 2025. Per Mei 2026 supply yang reliable telah mencapai:
- RunPod (Secure): $6,39/jam on-demand — termurah production-grade
- Crusoe Cloud: $5,50/jam on-demand
- Lambda Labs: $6,95/jam reserved
- AWS (p6e instances): $18–21/jam per GPU — region terbatas
- GCP A3 Ultra: $13,40/jam on-demand
Untuk inference serving, B200 mengirim ~165 token/detik pada Llama 4 70B di batch=1 versus ~85 token/detik di H100 SXM. Dikombinasikan dengan ~1,6× biaya, B200 menang untuk inference berkelanjutan. Untuk eksperimentasi sekali, H100 masih lebih murah untuk dinaikkan.
Jika Anda memiliki akses ke rack GB200 NVL72 baru (72 B200s dengan NVLink switch), throughput inference scale sub-linearly past 8 GPUs — tapi sewa rack-scale masih di-gate di belakang kontrak enterprise di 2026.
Berapa banyak yang bisa Anda hemat dengan spot atau community GPU?
Spot menghemat 30–70% sebagai pertukaran risiko eviction. Risikonya berbeda per provider:
| Tier | Frekuensi eviction | Terbaik untuk |
|---|---|---|
| AWS Spot, GCP Preemptible | Median 1–3 hari uptime | Training panjang dengan checkpointing |
| Azure Low Priority | Mirip AWS | Sama |
| RunPod Community | Jam ke hari | Eksperimen inference, batch job |
| Vast.ai community | Menit ke jam, sangat variabel | Research saja |
Pola aman adalah deployment mixed-tier: pertahankan kapasitas on-demand untuk baseline serving rate, dan burst ke spot untuk traffic peaks. Tool seperti SkyPilot, Kueue, dan dstack membuat ini praktis.
Untuk training run, framework modern (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) checkpoint setiap N langkah. Dengan checkpoint 5 menit di training 24 jam, satu eviction menelan biaya 5 menit — rugi $2 untuk menghemat 50% di run $200. Spot menang secara decisive.
Biaya tersembunyi apa yang harus diwaspadai?
Harga GPU utama mengeluarkan partida ini yang sering menggandakan tagihan nyata:
- Bandwidth egress. AWS menagih $0,09/GB egress. Untuk app inference streaming output panjang ke ribuan user, egress bisa menyaingi biaya GPU.
- Storage. EBS, GCP Persistent Disk, dan Azure Managed Disks ditagih terpisah. Rencanakan $50–200/bulan untuk volume 1TB attached.
- Networking antar region. Transfer cross-region $0,02–0,10/GB dan menambah cepat untuk training terdistribusi.
- Snapshots / images. AMI custom dan snapshots ditagih di tier storage.
- Instance idle. GPU termahal adalah yang berjalan tanpa traffic. Gunakan auto-shutdown dan serving berbasis queue.
- Lock-in reserved instance. Komitmen 1-tahun dan 3-tahun menghemat 30–60% tapi kapasitas stranded berharga lebih dari headline retail.
Untuk breakdown lengkap termasuk listrik opsional (TDP × PUE × jam × tarif Anda), lihat Kalkulator Harga GPU.
Kapan harus self-host versus sewa?
Titik crossover di 2026:
- Sewa menang di bawah ~4.000 GPU-jam per bulan per tipe GPU (~5,5 GPU berjalan 24/7). Di bawah ini, overhead operasional menjalankan rack datacenter sendiri tidak sepadan.
- Co-location menang antara 4.000–15.000 GPU-jam. Sewa ruang di datacenter yang ada, beli GPU langsung (~$30k/H100), dan bayar $0,10/kWh untuk listrik + $200/U/bulan untuk ruang.
- Memiliki menang di atas 15.000 GPU-jam per bulan per tipe. Anda mengamortisasi biaya GPU selama 2–3 tahun dan membayar biaya marginal untuk listrik.
Kira-kira: startup kecil → sewa (mungkin RunPod atau Lambda). Tim AI infra mid-scale → mix dari reserved cloud + co-lo. Hyperscale (>50 GPU) → atau kontrak enterprise AWS/GCP atau DC sendiri.
Faktor tersembunyi yang sering dianggarkan kurang oleh tim adalah operations: GPU driver, versi CUDA, update firmware, alarm power/cooling, RMA hardware. Cluster 32-GPU butuh setidaknya 0,5 FTE platform engineering bahkan di colo managed.
Menyatukan semuanya
Plug jam/hari Anda, tipe GPU, dan pricing tier ke Kalkulator Harga GPU untuk melihat biaya bulanan yang bisa di-sort di 12 provider. Jika Anda juga membayar inference di scale, cross-reference dengan Benchmark Inference — kadang provider yang lebih mahal-per-jam menang di dolar-per-juta-token karena throughput-nya lebih tinggi. Dan untuk workload agentic di mana compute hanya satu partida, Kalkulator Biaya Pengembangan Agent memisahkan compute bersama orchestration dan observability.
AITOT memverifikasi ulang setiap harga di artikel ini terhadap halaman resmi provider di tanggal 1 setiap bulan. Terakhir diverifikasi: 1 Mei 2026.