AITOT
Blog

Giá Thuê GPU Cloud 2026: AWS vs RunPod vs Vast.ai

So sánh chi tiết giá thuê GPU 2026 trên AWS, GCP, Azure, RunPod, Vast.ai, Lambda Labs và các provider khác — giá theo giờ cho H100, A100, B200.

6 min read· By AITOT Editorial

Giá thuê GPU cloud 2026 trải dài 10× cho cùng phần cứng — một NVIDIA H100 thuê giá $1.49/giờ trên Hyperbolic và $12.29/giờ trên AWS, cùng GPU, cùng thế hệ. Khác biệt là độ tin cậy, network, hệ sinh thái, và mức độ chấp nhận xử lý các góc cạnh thô. Bài hướng dẫn này so sánh 12 provider trên các dòng GPU quan trọng 2026 (H100, H200, A100, B200, L40S, RTX 4090) để bạn chọn đúng vendor cho workload.

Để tính chi phí hàng tháng real-time, bao gồm điện tùy chọn, dùng Calculator giá thuê GPU. Cho token/giây và đô-la-trên-triệu-token ở mỗi provider, xem Inference Benchmark.

Năm 2026 nên thuê GPU nào?

Decision tree nhanh theo loại workload:

  • LLM inference (lớp 70B) — H100 SXM là sweet spot. Chuyển sang B200 nếu yêu cầu throughput vượt 150 token/giây/user.
  • LLM inference (lớp 405B) — B200 ×8 là sàn mới; H100 ×8 vẫn dùng được nhưng chậm hơn ~50%.
  • Fine-tuning (LoRA trên 7B–70B) — A100-80GB hoặc H100-PCIe; PCIe ổn vì LoRA không cần NVLink.
  • Pre-training đầy đủ — H100 SXM5 với NVLink, tối thiểu node 8-GPU. Bỏ qua A100 trừ khi budget cực hạn.
  • Tạo embedding hoặc batch inference — L40S hoặc thậm chí RTX 4090 nếu không cần >24GB VRAM.
  • Thử nghiệm — RTX A6000 (48GB) trên Vast.ai dưới $1/giờ, hoặc RTX 4090 nếu 24GB đủ.

Sai lầm phổ biến nhất là thuê H100 SXM5 khi thực sự cần H100 PCIe. Bản PCIe rẻ hơn 35% ở hầu hết provider và giống hệt cho mọi workload vừa trên một GPU.

H100 thực sự tốn bao nhiêu trên các provider?

Giá theo giờ H100 SXM5 80GB tính đến 5/2026, sắp xếp rẻ nhất trước:

ProviderOn-demandSpot / communityGhi chú
Hyperbolic$1.49Style spot; reliability community
Vast.ai$2.40$1.80Median 24 giờ; community
RunPod (Community)$2.39$1.65Rẻ nhất uptime tạm được
RunPod (Secure)$2.99$1.99Datacenter-grade
Lambda Labs$2.99Reserved cải thiện thêm
CoreWeave$3.30Enterprise; thường yêu cầu contract
Paperspace$5.95UI thân thiện; giá consumer-grade
GCP A3 (us-central1)$11.06$5.50Mỗi GPU từ node A3 8-GPU
AWS p5 (us-east-1)$12.29$6.40Mỗi GPU từ p5.48xlarge
Azure ND-H100-v5$12.96$6.80Mỗi GPU

Chênh lệch giá on-demand là 8.7×. Chênh lệch giá spot 4×. Bạn chọn cái nào tùy thuộc runtime của bạn coi trọng network, IAM, data residency của cloud đến đâu.

Rule of thumb thực tế: nếu training run bên trong VPC hiện có với dữ liệu độc quyền, thuế AWS/GCP/Azure đáng trả. Nếu bạn đang làm research, distillation, fine-tuning hoặc inference cho startup, giá hyperscaler đắt 4–8× so với giá trị nhận được.

B200, flagship mới, thế nào?

Blackwell B200 (192GB HBM3e, 1.000W TDP) ship cho cloud cuối 2025. Đến 5/2026, nguồn cung ổn định đạt:

  • RunPod (Secure): $6.39/giờ on-demand — rẻ nhất production-grade
  • Crusoe Cloud: $5.50/giờ on-demand
  • Lambda Labs: $6.95/giờ reserved
  • AWS (p6e instances): $18–21/giờ/GPU — region hạn chế
  • GCP A3 Ultra: $13.40/giờ on-demand

Cho inference serving, B200 cho ~165 token/giây trên Llama 4 70B ở batch=1 so với ~85 token/giây trên H100 SXM. Kết hợp với giá ~1.6× cao hơn, B200 thắng cho inference bền vững. Cho experimentation một lần, H100 vẫn rẻ hơn để khởi tạo.

Nếu có quyền truy cập rack GB200 NVL72 mới (72 B200 với NVLink switch), throughput inference scale dưới-tuyến-tính qua 8 GPU — nhưng thuê rack-scale vẫn bị gate sau enterprise contract trong 2026.

Tiết kiệm bao nhiêu với spot hoặc community GPU?

Spot tiết kiệm 30–70% đổi lại rủi ro eviction. Rủi ro thay đổi theo provider:

TierTần suất evictionTốt cho
AWS Spot, GCP PreemptibleMedian 1–3 ngày uptimeTraining dài có checkpointing
Azure Low PriorityTương tự AWSNhư trên
RunPod CommunityVài giờ đến vài ngàyThí nghiệm inference, batch job
Vast.ai communityVài phút đến vài giờ, biến động caoChỉ research

Pattern an toàn là deployment mixed-tier: giữ on-demand capacity cho baseline serving rate, burst sang spot cho traffic peak. Tool như SkyPilot, Kueue, dstack làm việc này khả thi.

Cho training run, framework hiện đại (PyTorch Lightning, DeepSpeed, Hugging Face Accelerate) checkpoint mỗi N step. Với checkpoint 5 phút trên training 24 giờ, một eviction tốn 5 phút — lỗ $2 để tiết kiệm 50% trên run $200. Spot thắng quyết đoán.

Chi phí ẩn nào cần để ý?

Giá GPU công bố không bao gồm các khoản này thường gấp đôi hóa đơn thực:

  • Bandwidth egress. AWS tính $0.09/GB egress. App inference stream output dài cho hàng ngàn user có thể có egress sánh ngang chi phí GPU.
  • Storage. EBS, GCP Persistent Disk, Azure Managed Disks tính riêng. Plan $50–200/tháng cho volume 1TB attached.
  • Network giữa region. Transfer cross-region $0.02–0.10/GB, cộng dồn nhanh cho training phân tán.
  • Snapshot / image. AMI tùy chỉnh và snapshot tính theo tier storage.
  • Instance idle. GPU đắt nhất là cái chạy không có traffic. Dùng auto-shutdown và serving theo queue.
  • Reserved instance lock-in. Commitment 1 năm và 3 năm tiết kiệm 30–60% nhưng capacity stranded tốn hơn giá retail.

Để có breakdown đầy đủ bao gồm điện tùy chọn (TDP × PUE × giờ × giá điện của bạn), xem Calculator giá thuê GPU.

Khi nào nên tự host thay vì thuê?

Điểm crossover năm 2026:

  • Thuê thắng dưới ~4.000 GPU-giờ/tháng/loại GPU (~5.5 GPU chạy 24/7). Dưới mức này, chi phí vận hành rack datacenter riêng không đáng.
  • Co-location thắng giữa 4.000–15.000 GPU-giờ. Thuê chỗ trong datacenter có sẵn, mua GPU thẳng (~$30k/H100), trả $0.10/kWh điện + $200/U/tháng cho không gian.
  • Sở hữu thắng trên 15.000 GPU-giờ/tháng/loại. Bạn amortize chi phí GPU qua 2–3 năm và trả chi phí biên cho điện.

Đại khái: startup nhỏ → thuê (có lẽ RunPod hoặc Lambda). Team AI infra trung quy mô → mix reserved cloud + co-lo. Hyperscale (>50 GPU) → hoặc AWS/GCP enterprise contract hoặc DC riêng.

Yếu tố ẩn hầu hết team tính thiếu là operations: GPU driver, version CUDA, firmware update, alarm điện/cooling, RMA hardware. Cluster 32-GPU cần ít nhất 0.5 FTE platform engineering kể cả trong colo managed.

Tổng hợp lại

Cắm số giờ/ngày, loại GPU, pricing tier vào Calculator giá thuê GPU để xem chi phí hàng tháng có thể sort trên 12 provider. Nếu bạn cũng trả tiền inference quy mô lớn, đối chiếu với Inference Benchmark — đôi khi provider đắt-hơn-mỗi-giờ thắng theo đô-la-trên-triệu-token vì throughput cao hơn. Và cho workload agentic nơi compute chỉ là một dòng, Calculator chi phí phát triển Agent tách compute riêng với orchestration và observability.

AITOT verify lại mọi giá trong bài này với trang chính thức của provider vào ngày 1 mỗi tháng. Lần verify gần nhất: 1/5/2026.