Cloud nào thuê H100 GPU rẻ nhất 2026?

Hyperbolic giá $1.49/giờ và Vast.ai $1.80/giờ là rẻ nhất cho H100 SXM tính đến 5/2026, độ tin cậy ở mức community. RunPod Community Cloud $1.99/giờ uptime tốt hơn. AWS on-demand $12.29/giờ — đắt gấp 8 lần.

RunPod có rẻ hơn AWS cho workload AI không?

Có. H100 on-demand trên RunPod $2.99/giờ rẻ hơn AWS p5 ($12.29/giờ/GPU) 76%. Đánh đổi: ít region hơn, bandwidth nhỏ hơn, ít công cụ enterprise — ổn cho training và batch inference, khó hơn cho HTTP serving production.

Có nên dùng GPU spot cho production không?

Chỉ khi có checkpoint. GPU spot/preemptible rẻ hơn 50–75% nhưng có thể bị thu hồi trong 30 giây tới 2 phút. An toàn cho training run checkpoint mỗi 5 phút; rủi ro cho HTTP serving production trừ khi đặt queue ở trước.

H100 so với B200 về price-performance ra sao?

B200 thường cho throughput gấp 2–2.5× H100 SXM cho inference, nhưng thuê chỉ 1.5–2× giá. Vậy B200 lãi hơn cho inference workload ổn định. H100 vẫn rẻ hơn tính theo GB-VRAM-giờ cho training memory-bound.

Giá GPU theo giờ bao gồm những gì?

Giá theo giờ gồm quyền truy cập GPU cộng CPU, RAM, network cơ bản. Bandwidth egress, storage vượt tier, Kubernetes managed thường tính riêng. Luôn cộng thêm 10–20% giá GPU công bố để có tổng thực tế.

Giá GPU có thay đổi trong ngày không?

Giá spot dao động theo giờ trên Vast.ai và AWS. Giá on-demand cố định hàng tháng. Luôn lấy median 7–30 ngày cho spot, không phải giá tức thời lúc bạn kiểm tra.

Blog

Giá Thuê GPU Cloud 2026: AWS vs RunPod vs Vast.ai

So sánh chi tiết giá thuê GPU 2026 trên AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs và các provider khác — giá theo giờ cho H100, A100, B200.

Updated 2026-05-116 min read· By AITOT Editorial

Giá thuê GPU cloud 2026 trải dài 10× cho cùng phần cứng — một NVIDIA H100 thuê giá $1.49/giờ trên Hyperbolic và $12.29/giờ trên AWS, cùng GPU, cùng thế hệ. Khác biệt là độ tin cậy, network, hệ sinh thái, và mức độ chấp nhận xử lý các góc cạnh thô. Bài hướng dẫn này so sánh 12 provider trên các dòng GPU quan trọng 2026 (H100, H200, A100, B200, L40S, RTX 4090) để bạn chọn đúng vendor cho workload.

Để tính chi phí hàng tháng real-time, bao gồm điện tùy chọn, dùng Calculator giá thuê GPU. Cho token/giây và đô-la-trên-triệu-token ở mỗi provider, xem Inference Benchmark.

Năm 2026 nên thuê GPU nào?

Decision tree nhanh theo loại workload:

LLM inference (lớp 70B) — H100 SXM là sweet spot. Chuyển sang B200 nếu yêu cầu throughput vượt 150 token/giây/user.
LLM inference (lớp 405B) — B200 ×8 là sàn mới; H100 ×8 vẫn dùng được nhưng chậm hơn ~50%.
Fine-tuning (LoRA trên 7B–70B) — A100-80GB hoặc H100-PCIe; PCIe ổn vì LoRA không cần NVLink.
Pre-training đầy đủ — H100 SXM5 với NVLink, tối thiểu node 8-GPU. Bỏ qua A100 trừ khi budget cực hạn.
Tạo embedding hoặc batch inference — L40S hoặc thậm chí RTX 4090 nếu không cần >24GB VRAM.
Thử nghiệm — RTX A6000 (48GB) trên Vast.ai dưới $1/giờ, hoặc RTX 4090 nếu 24GB đủ.

Sai lầm phổ biến nhất là thuê H100 SXM5 khi thực sự cần H100 PCIe. Bản PCIe rẻ hơn 35% ở hầu hết provider và giống hệt cho mọi workload vừa trên một GPU.

H100 thực sự tốn bao nhiêu trên các provider?

Giá theo giờ H100 SXM5 80GB tính đến 5/2026, sắp xếp rẻ nhất trước:

Provider	On-demand	Spot / community	Ghi chú
Hyperbolic	$1.49	—	Style spot; reliability community
Vast.ai	$2.40	$1.80	Median 24 giờ; community
RunPod (Community)	$2.39	$1.65	Rẻ nhất uptime tạm được
RunPod (Secure)	$2.99	$1.99	Datacenter-grade
Lambda Labs	$2.99	—	Reserved cải thiện thêm
CoreWeave	$3.30	—	Enterprise; thường yêu cầu contract
Paperspace	$5.95	—	UI thân thiện; giá consumer-grade
GCP A3 (us-central1)	$11.06	$5.50	Mỗi GPU từ node A3 8-GPU
AWS p5 (us-east-1)	$12.29	$6.40	Mỗi GPU từ p5.48xlarge
Azure ND-H100-v5	$12.96	$6.80	Mỗi GPU

Chênh lệch giá on-demand là 8.7×. Chênh lệch giá spot 4×. Bạn chọn cái nào tùy thuộc runtime của bạn coi trọng network, IAM, data residency của cloud đến đâu.

Rule of thumb thực tế: nếu training run bên trong VPC hiện có với dữ liệu độc quyền, thuế AWS/GCP/Azure đáng trả. Nếu bạn đang làm research, distillation, fine-tuning hoặc inference cho startup, giá hyperscaler đắt 4–8× so với giá trị nhận được.

B200, flagship mới, thế nào?

Blackwell B200 (192GB HBM3e, 1.000W TDP) ship cho cloud cuối 2025. Đến 5/2026, nguồn cung ổn định đạt:

RunPod (Secure): $6.39/giờ on-demand — rẻ nhất production-grade
Crusoe Cloud: $5.50/giờ on-demand
Lambda Labs: $6.95/giờ reserved
AWS (p6e instances): $18–21/giờ/GPU — region hạn chế
GCP A3 Ultra: $13.40/giờ on-demand

Cho inference serving, B200 cho ~165 token/giây trên Llama 4 70B ở batch=1 so với ~85 token/giây trên H100 SXM. Kết hợp với giá ~1.6× cao hơn, B200 thắng cho inference bền vững. Cho experimentation một lần, H100 vẫn rẻ hơn để khởi tạo.

Nếu có quyền truy cập rack GB200 NVL72 mới (72 B200 với NVLink switch), throughput inference scale dưới-tuyến-tính qua 8 GPU — nhưng thuê rack-scale vẫn bị gate sau enterprise contract trong 2026.

Tiết kiệm bao nhiêu với spot hoặc community GPU?

Spot tiết kiệm 30–70% đổi lại rủi ro eviction. Rủi ro thay đổi theo provider:

Tier	Tần suất eviction	Tốt cho
AWS Spot, GCP Preemptible	Median 1–3 ngày uptime	Training dài có checkpointing
Azure Low Priority	Tương tự AWS	Như trên
RunPod Community	Vài giờ đến vài ngày	Thí nghiệm inference, batch job
Vast.ai community	Vài phút đến vài giờ, biến động cao	Chỉ research

Pattern an toàn là deployment mixed-tier: giữ on-demand capacity cho baseline serving rate, burst sang spot cho traffic peak. Tool như SkyPilot, Kueue, dstack làm việc này khả thi.

Cho training run, framework hiện đại (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) checkpoint mỗi N step. Với checkpoint 5 phút trên training 24 giờ, một eviction tốn 5 phút — lỗ $2 để tiết kiệm 50% trên run $200. Spot thắng quyết đoán.

Chi phí ẩn nào cần để ý?

Giá GPU công bố không bao gồm các khoản này thường gấp đôi hóa đơn thực:

Bandwidth egress. AWS tính $0.09/GB egress. App inference stream output dài cho hàng ngàn user có thể có egress sánh ngang chi phí GPU.
Storage. EBS, GCP Persistent Disk, Azure Managed Disks tính riêng. Plan $50–200/tháng cho volume 1TB attached.
Network giữa region. Transfer cross-region $0.02–0.10/GB, cộng dồn nhanh cho training phân tán.
Snapshot / image. AMI tùy chỉnh và snapshot tính theo tier storage.
Instance idle. GPU đắt nhất là cái chạy không có traffic. Dùng auto-shutdown và serving theo queue.
Reserved instance lock-in. Commitment 1 năm và 3 năm tiết kiệm 30–60% nhưng capacity stranded tốn hơn giá retail.

Để có breakdown đầy đủ bao gồm điện tùy chọn (TDP × PUE × giờ × giá điện của bạn), xem Calculator giá thuê GPU.

Khi nào nên tự host thay vì thuê?

Điểm crossover năm 2026:

Thuê thắng dưới ~4.000 GPU-giờ/tháng/loại GPU (~5.5 GPU chạy 24/7). Dưới mức này, chi phí vận hành rack datacenter riêng không đáng.
Co-location thắng giữa 4.000–15.000 GPU-giờ. Thuê chỗ trong datacenter có sẵn, mua GPU thẳng (~$30k/H100), trả $0.10/kWh điện + $200/U/tháng cho không gian.
Sở hữu thắng trên 15.000 GPU-giờ/tháng/loại. Bạn amortize chi phí GPU qua 2–3 năm và trả chi phí biên cho điện.

Đại khái: startup nhỏ → thuê (có lẽ RunPod hoặc Lambda). Team AI infra trung quy mô → mix reserved cloud + co-lo. Hyperscale (>50 GPU) → hoặc AWS/GCP enterprise contract hoặc DC riêng.

Yếu tố ẩn hầu hết team tính thiếu là operations: GPU driver, version CUDA, firmware update, alarm điện/cooling, RMA hardware. Cluster 32-GPU cần ít nhất 0.5 FTE platform engineering kể cả trong colo managed.

Tổng hợp lại

Cắm số giờ/ngày, loại GPU, pricing tier vào Calculator giá thuê GPU để xem chi phí hàng tháng có thể sort trên 12 provider. Nếu bạn cũng trả tiền inference quy mô lớn, đối chiếu với Inference Benchmark — đôi khi provider đắt-hơn-mỗi-giờ thắng theo đô-la-trên-triệu-token vì throughput cao hơn. Và cho workload agentic nơi compute chỉ là một dòng, Calculator chi phí phát triển Agent tách compute riêng với orchestration và observability.

AITOT verify lại mọi giá trong bài này với trang chính thức của provider vào ngày 1 mỗi tháng. Lần verify gần nhất: 1/5/2026.