Question 1

H100 chạy Llama 4 70B được bao nhiêu token/giây?

Accepted Answer

Khoảng 95 token/giây single-stream, 380 token/giây batch=8 dùng vLLM. Với speculative decoding qua Llama 4 8B làm draft model, single-stream lên 140 token/giây. TTFT thường 280ms cold, 95ms warm.

Question 2

H100 vs A100 — chênh inference thực 2026 bao nhiêu?

Accepted Answer

Cho Llama 4 70B FP16: H100 nhanh hơn A100 ~1.7× (95 vs 56 tok/giây). Cho long-context (>32k token), H100 mở rộng khoảng cách lên 2.4× nhờ memory bandwidth cao hơn (3.35TB/s vs 2.04TB/s). A100 vẫn thắng về $/token cho workload legacy.

Question 3

TTFT là gì và sao quan trọng?

Accepted Answer

Time-to-first-token: thời gian user chờ trước khi thấy ký tự đầu của response. Quan trọng nhất cho UX chat. Trên 1 giây cảm giác broken. Speculative decoding, prompt caching, và prefix sharing đều giảm TTFT. H200 và B200 cắt TTFT 40% so H100.

Question 4

Batching ảnh hưởng chi phí mỗi triệu token sao?

Accepted Answer

Single-stream H100 + Llama 4 70B tốn khoảng $0.45/M output token. Ở batch=8, giảm còn $0.12/M (rẻ gần 4×). vLLM, TGI, và SGLang đều hỗ trợ continuous batching. Calculator mô phỏng batch=1, 4, 8, 16.

Question 5

GPU consumer (RTX 4090, 5090) có dùng được cho inference?

Accepted Answer

Cho model lên đến 30B param quantize int4, có. RTX 5090 (32GB) chạy Llama 4 8B ở 180 token/giây với chi phí điện amortized dưới $0.05/giờ. Không dùng được cho 70B+ nếu không 4-bit quant + offload. Đường rẻ cho dev và side project.

Question 6

Inference engine nào nên dùng 2026 — vLLM, TGI, hay SGLang?

Accepted Answer

vLLM có continuous batching và prompt caching tốt nhất. SGLang thắng cho structured output và prompt phức tạp. TGI production-hardened nhất (HF). Cho pure throughput, vLLM. Cho chat latency-sensitive, SGLang. Calculator giả định default vLLM.

Host	Token/giây	TTFT	Thời gian phản hồi	$ / 1M out	Tổng / tháng
DeepInfra	70	410 ms	7.55 s	$0.60	$69.00
SambaNova	580	110 ms	0.97 s	$0.60	$90.00
Groq	320	180 ms	1.74 s	$0.79	$98.50
Cerebras	450	120 ms	1.23 s	$0.85	$107.50
Together	92	320 ms	5.75 s	$0.88	$132.00
Fireworks	110	290 ms	4.84 s	$0.90	$135.00
Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference	85	380 ms	6.26 s	$1.95	$292.50
Self-host (B200 ×4)	165	220 ms	3.25 s	$2.10	$315.00

GPU	Token/giây	TTFT	Chi phí/M output
RTX 5090 32GB (quant)	110	420ms	$0.08
A100 80GB	210	180ms	$0.18
H100 80GB	380	95ms	$0.12
H100 SXM + spec.	540	90ms	$0.09
H200 141GB	480	60ms	$0.10
B200	760	40ms	$0.08

Benchmark & chi phí Inference AI

Calculator này làm được gì

Token/giây cho model top

Mô phỏng batch size

Ước tính TTFT

Speculative decoding

Chi phí mỗi 1M output

vLLM, TGI, SGLang

So sánh nhanh

Cách dùng calculator

Vì sao nên dùng calculator này

Câu hỏi thường gặp