Cloud apa yang termurah untuk menyewa GPU H100 di 2026?

Hyperbolic $1,49/jam dan Vast.ai $1,80/jam menawarkan tarif H100 SXM terendah per Mei 2026, keduanya dengan reliability community-tier. RunPod Community Cloud $1,99/jam dengan uptime lebih baik. AWS on-demand $12,29/jam — 8× lebih mahal.

Apakah RunPod lebih murah dari AWS untuk workload AI?

Ya. H100 on-demand RunPod $2,99/jam 76% lebih murah dari AWS p5 on-demand $12,29/jam per GPU. Trade-off-nya: sedikit region, bandwidth networking lebih kecil, dan tooling enterprise lebih sedikit — bagus untuk training dan batch inference, lebih sulit untuk HTTP serving produksi.

Haruskah saya menggunakan GPU spot untuk produksi?

Hanya dengan checkpointing. GPU spot/preemptible 50–75% lebih murah tapi bisa di-reclaim dalam 30 detik sampai 2 menit. Aman untuk training run yang checkpoint setiap 5 menit; berisiko untuk HTTP serving produksi kecuali Anda meletakkan queue di depannya.

Bagaimana H100 dibandingkan B200 dalam harga-kinerja?

B200 biasanya mengirim throughput 2–2,5× H100 SXM untuk inference, tapi sewa hanya 1,5–2× harga. Jadi B200 lebih menguntungkan untuk workload inference berkelanjutan. H100 masih lebih murah per GB-VRAM-jam untuk training memory-bound.

Apa yang termasuk dalam tarif GPU per jam?

Tarif per jam mencakup akses GPU plus CPU baseline, memori, dan jaringan. Egress bandwidth, storage di atas tier yang termasuk, dan Kubernetes terkelola biasanya ditagih terpisah. Selalu tambahkan 10–20% ke harga GPU utama untuk total realistis.

Apakah harga GPU berubah sepanjang hari?

Harga spot fluktuasi per jam di Vast.ai dan AWS. Harga on-demand statis selama berbulan-bulan. Selalu kutip median 7–30 hari untuk spot, bukan harga instant yang Anda lihat saat cek.

Blog

Harga GPU Cloud 2026: AWS vs RunPod vs Vast.ai

Perbandingan jujur harga sewa GPU 2026 di AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs, dan lainnya — tarif per jam H100, A100, B200.

Updated 2026-05-116 min read· By AITOT Editorial

Harga GPU cloud di 2026 mencakup rentang 10× untuk hardware identik — NVIDIA H100 disewa $1,49/jam di Hyperbolic dan $12,29/jam di AWS, GPU sama, generasi sama. Bedanya adalah reliability, networking, ekosistem, dan seberapa rela Anda menangani rough edges. Panduan ini membandingkan 12 provider di lineup GPU yang penting di 2026 (H100, H200, A100, B200, L40S, RTX 4090) sehingga Anda bisa memilih vendor yang tepat untuk workload Anda.

Untuk matematika real-time biaya bulanan, termasuk listrik opsional, gunakan Kalkulator Harga GPU. Untuk token/detik dan dolar-per-juta-token di setiap provider, lihat Benchmark Inference.

GPU mana yang sebenarnya harus Anda sewa di 2026?

Decision tree cepat berdasarkan jenis workload:

LLM inference (kelas 70B) — H100 SXM adalah sweet spot. Pindah ke B200 jika kebutuhan throughput Anda melampaui 150 token/detik/user.
LLM inference (kelas 405B) — B200 ×8 adalah lantai baru; H100 ×8 masih bekerja tapi 50% lebih lambat.
Fine-tuning (LoRA pada 7B–70B) — A100-80GB atau H100-PCIe; PCIe oke karena LoRA tidak NVLink-bound.
Pre-training penuh — H100 SXM5 dengan NVLink, minimum node 8-GPU. Lewati A100 kecuali anggaran brutal.
Generasi embedding atau batch inference — L40S atau bahkan RTX 4090 jika tidak butuh >24GB VRAM.
Eksperimentasi — RTX A6000 (48GB) di Vast.ai di bawah $1/jam, atau RTX 4090 jika 24GB cukup.

Kesalahan paling umum yang dibuat tim adalah menyewa H100 SXM5 padahal sebenarnya butuh H100 PCIe. Versi PCIe 35% lebih murah di sebagian besar provider dan identik untuk workload yang muat di satu GPU.

Berapa biaya H100 sebenarnya antar provider?

Tarif per jam H100 SXM5 80GB per Mei 2026, diurutkan termurah dulu:

Provider	On-demand	Spot / community	Catatan
Hyperbolic	$1,49	—	Style spot; reliability community
Vast.ai	$2,40	$1,80	Median 24 jam; community
RunPod (Community)	$2,39	$1,65	Termurah dengan uptime layak
RunPod (Secure)	$2,99	$1,99	Grade datacenter
Lambda Labs	$2,99	—	Reserved meningkatkan lebih jauh
CoreWeave	$3,30	—	Enterprise; biasanya butuh kontrak
Paperspace	$5,95	—	UI ramah; harga grade consumer
GCP A3 (us-central1)	$11,06	$5,50	Per GPU dari node A3 8-GPU
AWS p5 (us-east-1)	$12,29	$6,40	Per GPU dari p5.48xlarge
Azure ND-H100-v5	$12,96	$6,80	Per GPU

Spread harga on-demand 8,7×. Spread harga spot 4×. Mana yang Anda pilih tergantung seberapa banyak runtime Anda menghargai networking, IAM, dan data residency cloud.

Rule of thumb dunia nyata: jika training run Anda di dalam VPC yang ada dengan data proprietary, pajak AWS/GCP/Azure layak dibayar. Jika Anda melakukan research, distillation, fine-tuning, atau inference untuk startup, tarif hyperscaler 4–8× overpriced untuk apa yang Anda dapatkan.

Bagaimana dengan B200, flagship baru?

Blackwell B200 (192GB HBM3e, 1.000W TDP) dikirim ke cloud akhir 2025. Per Mei 2026 supply yang reliable telah mencapai:

RunPod (Secure): $6,39/jam on-demand — termurah production-grade
Crusoe Cloud: $5,50/jam on-demand
Lambda Labs: $6,95/jam reserved
AWS (p6e instances): $18–21/jam per GPU — region terbatas
GCP A3 Ultra: $13,40/jam on-demand

Untuk inference serving, B200 mengirim ~165 token/detik pada Llama 4 70B di batch=1 versus ~85 token/detik di H100 SXM. Dikombinasikan dengan ~1,6× biaya, B200 menang untuk inference berkelanjutan. Untuk eksperimentasi sekali, H100 masih lebih murah untuk dinaikkan.

Jika Anda memiliki akses ke rack GB200 NVL72 baru (72 B200s dengan NVLink switch), throughput inference scale sub-linearly past 8 GPUs — tapi sewa rack-scale masih di-gate di belakang kontrak enterprise di 2026.

Berapa banyak yang bisa Anda hemat dengan spot atau community GPU?

Spot menghemat 30–70% sebagai pertukaran risiko eviction. Risikonya berbeda per provider:

Tier	Frekuensi eviction	Terbaik untuk
AWS Spot, GCP Preemptible	Median 1–3 hari uptime	Training panjang dengan checkpointing
Azure Low Priority	Mirip AWS	Sama
RunPod Community	Jam ke hari	Eksperimen inference, batch job
Vast.ai community	Menit ke jam, sangat variabel	Research saja

Pola aman adalah deployment mixed-tier: pertahankan kapasitas on-demand untuk baseline serving rate, dan burst ke spot untuk traffic peaks. Tool seperti SkyPilot, Kueue, dan dstack membuat ini praktis.

Untuk training run, framework modern (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) checkpoint setiap N langkah. Dengan checkpoint 5 menit di training 24 jam, satu eviction menelan biaya 5 menit — rugi $2 untuk menghemat 50% di run $200. Spot menang secara decisive.

Biaya tersembunyi apa yang harus diwaspadai?

Harga GPU utama mengeluarkan partida ini yang sering menggandakan tagihan nyata:

Bandwidth egress. AWS menagih $0,09/GB egress. Untuk app inference streaming output panjang ke ribuan user, egress bisa menyaingi biaya GPU.
Storage. EBS, GCP Persistent Disk, dan Azure Managed Disks ditagih terpisah. Rencanakan $50–200/bulan untuk volume 1TB attached.
Networking antar region. Transfer cross-region $0,02–0,10/GB dan menambah cepat untuk training terdistribusi.
Snapshots / images. AMI custom dan snapshots ditagih di tier storage.
Instance idle. GPU termahal adalah yang berjalan tanpa traffic. Gunakan auto-shutdown dan serving berbasis queue.
Lock-in reserved instance. Komitmen 1-tahun dan 3-tahun menghemat 30–60% tapi kapasitas stranded berharga lebih dari headline retail.

Untuk breakdown lengkap termasuk listrik opsional (TDP × PUE × jam × tarif Anda), lihat Kalkulator Harga GPU.

Kapan harus self-host versus sewa?

Titik crossover di 2026:

Sewa menang di bawah ~4.000 GPU-jam per bulan per tipe GPU (~5,5 GPU berjalan 24/7). Di bawah ini, overhead operasional menjalankan rack datacenter sendiri tidak sepadan.
Co-location menang antara 4.000–15.000 GPU-jam. Sewa ruang di datacenter yang ada, beli GPU langsung (~$30k/H100), dan bayar $0,10/kWh untuk listrik + $200/U/bulan untuk ruang.
Memiliki menang di atas 15.000 GPU-jam per bulan per tipe. Anda mengamortisasi biaya GPU selama 2–3 tahun dan membayar biaya marginal untuk listrik.

Kira-kira: startup kecil → sewa (mungkin RunPod atau Lambda). Tim AI infra mid-scale → mix dari reserved cloud + co-lo. Hyperscale (>50 GPU) → atau kontrak enterprise AWS/GCP atau DC sendiri.

Faktor tersembunyi yang sering dianggarkan kurang oleh tim adalah operations: GPU driver, versi CUDA, update firmware, alarm power/cooling, RMA hardware. Cluster 32-GPU butuh setidaknya 0,5 FTE platform engineering bahkan di colo managed.

Menyatukan semuanya

Plug jam/hari Anda, tipe GPU, dan pricing tier ke Kalkulator Harga GPU untuk melihat biaya bulanan yang bisa di-sort di 12 provider. Jika Anda juga membayar inference di scale, cross-reference dengan Benchmark Inference — kadang provider yang lebih mahal-per-jam menang di dolar-per-juta-token karena throughput-nya lebih tinggi. Dan untuk workload agentic di mana compute hanya satu partida, Kalkulator Biaya Pengembangan Agent memisahkan compute bersama orchestration dan observability.

AITOT memverifikasi ulang setiap harga di artikel ini terhadap halaman resmi provider di tanggal 1 setiap bulan. Terakhir diverifikasi: 1 Mei 2026.