AITOT
Blog

Benchmark Inference AI 2026: H100 vs A100 vs B200 vs Hosted API

So sánh 22 host inference 2026 — token/giây, latency, đô-la/triệu token. Groq, Cerebras, SambaNova, Together, Fireworks, tự host H100/B200.

6 min read· By AITOT Editorial

Hiệu năng inference AI 2026 trải dài 10× trên cùng một model. Llama 4 70B chạy 580 token/giây trên SambaNova so với 38 token/giây trên endpoint hosted Together AI — model weight giống hệt, hardware bên dưới hoàn toàn khác. Bài này benchmark 22 provider inference theo tốc độ, latency (TTFT) và chi phí (đô-la/triệu token), giải thích khi nào fast-but-pricey đáng giá. Cho real-time math, dùng Calculator Benchmark Inference AI.

Quy tắc "Nhanh ≠ Rẻ" áp dụng sắc nét: Groq và Cerebras gần như luôn nhanh nhất nhưng thường không rẻ nhất. SambaNova đôi khi quản lý cả hai. Hyperscaler tự host hiếm khi cái nào.

Llama 4 70B thực sự chạy nhanh thế nào 2026?

Output token/giây ở batch=1 streaming decode, nhanh nhất trước:

HostTok/giâyTTFTChi phí/1M out
SambaNova580110ms$0,60
Cerebras450120ms$0,85
Groq320180ms$0,79
B200 ×4 tự host165220ms$2,10
Fireworks110290ms$0,90
Together92320ms$0,88
Tự host H100 ×4 (vLLM)85380ms$1,95
DeepInfra70410ms$0,60

Ba cluster visible. Silicon chuyên dụng (SambaNova, Cerebras, Groq) ở 300–580 tok/giây. B200 ~165 tok/giây — gấp đôi H100 cluster. GPU NVIDIA quy mô (Together, Fireworks, DeepInfra, tự host) 70–110 tok/giây.

Vendor silicon chuyên dụng là shift gần đây. Năm 2024 họ còn là research curiosities; 2026 đã production-grade đủ để dùng trong product chat user-facing.

Năm 2026 nên dùng provider inference nào?

Decision tree theo priority:

  • Latency thấp nhất cho chat UX (TTFT <200ms, 300+ tok/giây) — Groq, Cerebras, hoặc SambaNova. Trả premium khi user perception tốc độ quan trọng.
  • Rẻ nhất ở mọi tốc độ — DeepInfra ($0,60/M output) hoặc tự host Llama trên GPU thuê dưới $1/M amortized. Dùng cho batch inference, summarization, workload offline.
  • Balance tốt nhất tốc độ và giá — SambaNova nổi bật 2026 — nhanh VÀ rẻ. Together và Fireworks là middle-of-pack reliable.
  • Output model chất lượng cao nhất (Llama 4 405B hoặc DeepSeek V3) — Fireworks hoặc Together. Provider chuyên dụng chưa host các model này.
  • Pricing enterprise predictable — Reserved capacity Together hoặc AWS Bedrock. Rate base cao hơn nhưng không scaling bất ngờ.
  • Tự host cho control — vLLM trên H100 SXM hoặc B200 cluster. Justified chỉ trên 500M token/tháng hoặc khi data residency là yêu cầu cứng.

Pattern phổ biến 2026 là multi-host routing: dùng Groq hoặc SambaNova cho chat user-facing (mỗi 100ms quan trọng), Together hoặc Fireworks cho batch job back-end. Tool như OpenRouter và Helicone làm việc này practical.

Công thức đô-la-trên-triệu-token?

Metric đầu trang:

$/M_output = host_pricing_per_1M_output_tokens
effective_$/M = $/M_output + (input_tokens/output_tokens) × $/M_input
monthly_cost = effective_$/M × output_tokens_per_month / 1.000.000

"Effective dollars per million" quan trọng vì input-token cost thường nửa hoặc ít hơn output cost. Cho workload chat (input/output điển hình 70/30), effective rate dominate bởi output. Cho RAG (95/5), effective rate dominate bởi input.

Ví dụ: 1.000 input + 500 output token/request, 100k request/tháng:

Groq (Llama 4 70B):
  100k × 1000 × $0,59 / 1M = $59 input
  100k × 500  × $0,79 / 1M = $39,5 output
  Monthly: $99

Tự host H100 ×4 ($2,99/h × 4 = $11,96/h):
  Throughput 85 tok/sec output × 80% utilization = 68 tok/sec sustained
  68 × 86.400 × 30 = 176M tok/tháng
  Workload: 100k × 500 = 50M output tok/tháng — 28% utilization
  GPU cost: $11,96 × 24 × 30 = $8.611/tháng ở 100% on
  Effective ở 28% utilization: ~$2.153 nếu scale down được
  Monthly: $2.153 (mostly stranded capacity)

Đây là lý do tự host ở volume vừa bad. H100 cluster idle 72% time nhưng tốn cùng. Hosted API chỉ tính cho cái bạn dùng.

Chi phí ẩn inference?

Năm khoản catch team off-guard:

  • TTFT inflation trên context dài. Gửi 32k token RAG context thêm 1–3 giây TTFT trên hầu hết host. Groq và Cerebras handle tốt hơn.
  • Rate limit. Hầu hết hosted API cap 5–20 request/giây/account. Traffic spiky bị throttle.
  • Cold start. Request đầu sau 5+ phút idle 3–8× chậm hơn. App production cần keep-alive ping hoặc tier "always-warm" trả phí.
  • Speculative decoding overhead. Một số provider (Anthropic, OpenAI) tính speculatively-decoded token kể cả khi reject. Thêm 5–15% bill.
  • Request failed không luôn refund. Stream half-completed từ network drop vẫn bill token đã complete.

Cho forecast chi phí đầy đủ gồm inference plus infrastructure xung quanh, dùng Calculator Chi phí Agent. Cho inference-only so sánh trên 22 host, dùng Calculator Benchmark Inference.

Khi nào chạy inference trên H100 vs B200 vs A100 2026?

Lựa chọn GPU cho tự host inference:

  • H100 SXM5 — sweet spot 2026 cho hầu hết serving model 7B–70B. vLLM/SGLang mature, FP8 inference tốt, ~85 tok/giây Llama 4 70B batch=1.
  • B200 — thắng cho inference volume cao bền vững. 2× throughput H100 SXM ở 1,6× rental = 25% rẻ hơn mỗi triệu token. Đáng nếu chạy >50% utilization.
  • A100 80GB — chỉ đáng cho 7B fine-tune và embedding generation. Cho 70B+ inference, H100 PCIe giá tương tự thắng về tốc độ.
  • H100 PCIe — rẻ hơn 35% SXM5 với 80% throughput inference. ROI tốt nhất cho workload không cần NVLink.
  • L40S — cạnh tranh bất ngờ cho inference sub-7B và embedding. Nửa VRAM nhưng 70% throughput.

Cho pricing theo loại GPU trên 12 cloud provider, xem Calculator giá thuê GPU.

Throughput scale với batch size thế nào?

Số batch=1 trong guide này là streaming-decode (chat UX). Back-end production có thể batch request cho throughput 5–20× cao hơn:

Batch sizeLlama 4 70B trên H100 SXM ×4Effective $/M output
1 (streaming)85 tok/giây$1,95
8580 tok/giây$0,29
321.800 tok/giây$0,094
64 (max)2.400 tok/giây$0,071

Vậy back-end batch pipeline có thể hit 7× throughput per dollar so với streaming chat pipeline trên cùng hardware. Đây là lý do provider như Together và Fireworks offer endpoint "batch" riêng ở rate thấp hơn.

Nếu app chấp nhận latency cao hơn (>5 giây ổn), dùng batch endpoint. Batch API Together tiết kiệm ~50% so với interactive.

Sắp tới cho inference 2026?

Ba trend cần watch:

  1. Cung B200 normalize. Q3 2026 dự kiến giá B200 giảm 30–40%. Premium so với H100 sẽ compress.
  2. Cluster GPB300 availability. GPU Blackwell Ultra 1KW bắt đầu ship cuối 2026. Dự kiến inference-per-watt cải thiện 2–3× B200 hiện tại.
  3. Cạnh tranh chip chuyên dụng. AMD MI400, Trainium 3, Tenstorrent đang positioning cho market share inference. Cạnh tranh sẽ pressure cả silicon niche (Groq, Cerebras) về giá.

AITOT refresh data benchmark inference ngày 1 mỗi tháng. Cho planning rộng hơn, Calculator giá thuê GPU cover phần hardware và Bộ so sánh giá token cover pricing model proprietary.