AITOT

Calculator

Benchmark & chi phí Inference AI

Đo tốc độ inference và chi phí trên 1 triệu token cho từng phần cứng (H100, A100, GPU consumer).

Pricing cập nhật:

AITOT Inference Benchmark calculator ước tính token/giây và chi phí mỗi 1M token output cho self-hosted inference trên H100, H200, B200, A100, RTX 5090 — chạy Llama 4, Qwen 3, Mistral, DeepSeek và các open-weight model với vLLM, TGI, hoặc SGLang.

H100 chạy Llama 4 70B ~95 token/giây single-stream, 380 token/giây batch=8. Với speculative decoding dùng Llama 4 8B làm draft model, single-stream lên ~140 token/giây. H100 nhanh hơn A100 trung bình 1.7×; H200 cắt TTFT 40% so với H100 nhờ memory bandwidth cao hơn.

Chi phí mỗi 1M token output giảm mạnh khi batch — single-stream H100 + Llama 4 70B là $0.45/M; batch=8 còn $0.12/M (rẻ gần 4×). Dùng calculator để xem khi nào self-host thắng hosted API ở volume + batch của bạn.

Rẻ nhất

DeepInfra

$69.00/tháng

Nhanh nhất

SambaNova

580tok/s

HostToken/giâyTTFTThời gian phản hồi$ / 1M outTổng / tháng
DeepInfra70410 ms7.55 s$0.60$69.00
SambaNova580110 ms0.97 s$0.60$90.00
Groq320180 ms1.74 s$0.79$98.50
Cerebras450120 ms1.23 s$0.85$107.50
Together92320 ms5.75 s$0.88$132.00
Fireworks110290 ms4.84 s$0.90$135.00
Self-host (H100 SXM ×4, vLLM)

AWS p5 spot reference

85380 ms6.26 s$1.95$292.50
Self-host (B200 ×4)165220 ms3.25 s$2.10$315.00

Số liệu là batch=1 streaming-decode (UX chat). Batch backend production có thể đạt 5–20× tốc độ token/giây cao hơn với cùng giá/token. Đối chiếu với artificialanalysis.ai để có dữ liệu mới nhất.

Calculator này làm được gì

Token/giây cho model top

Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS — đều có benchmark.

Mô phỏng batch size

Xem throughput scale từ batch=1 đến batch=32 với continuous batching.

Ước tính TTFT

Mô phỏng time-to-first-token — quan trọng cho UX chat.

Speculative decoding

Toggle để thấy speedup 1.5–2× với speculation dùng draft model.

Chi phí mỗi 1M output

Chi phí thuê GPU ÷ throughput = $/M output token thực.

vLLM, TGI, SGLang

Overhead engine đã tính sẵn; vLLM thường nhanh nhất cho throughput.

So sánh nhanh

Hiệu năng inference Llama 4 70B theo GPU (vLLM, batch=8)

GPUToken/giâyTTFTChi phí/M output
RTX 5090 32GB (quant)110420ms$0.08
A100 80GB210180ms$0.18
H100 80GB38095ms$0.12
H100 SXM + spec.54090ms$0.09
H200 141GB48060ms$0.10
B20076040ms$0.08

Chi phí tính theo giá RunPod community; vLLM batched 8 request đồng thời.

Cách dùng calculator

Ước tính token/giây và chi phí mỗi 1M token cho self-hosted LLM inference.

  1. 1

    Chọn model

    Chọn Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, hoặc Mistral. Tool đánh dấu cặp GPU thiếu VRAM.

  2. 2

    Chọn GPU

    H100 là workhorse. H200 hoặc B200 cho throughput cao nhất. RTX 5090 cho dev rẻ.

  3. 3

    Đặt batch concurrency

    Batch=8 là sweet spot production. Batch cao hơn tiết kiệm chi phí nhưng tăng latency.

  4. 4

    Bật speculative decoding

    Nếu có draft model nhỏ, toggle để có speedup 1.5–2× với cùng độ chính xác.

Vì sao nên dùng calculator này

  • Benchmark dựa trên báo cáo vLLM + SGLang public
  • Phủ 5 lớp GPU
  • Đã tính overhead engine
  • Mô phỏng TTFT, không chỉ throughput
  • Có speculative decoding
  • Refresh hàng tháng

Câu hỏi thường gặp

H100 chạy Llama 4 70B được bao nhiêu token/giây?+
Khoảng 95 token/giây single-stream, 380 token/giây batch=8 dùng vLLM. Với speculative decoding qua Llama 4 8B làm draft model, single-stream lên 140 token/giây. TTFT thường 280ms cold, 95ms warm.
H100 vs A100 — chênh inference thực 2026 bao nhiêu?+
Cho Llama 4 70B FP16: H100 nhanh hơn A100 ~1.7× (95 vs 56 tok/giây). Cho long-context (>32k token), H100 mở rộng khoảng cách lên 2.4× nhờ memory bandwidth cao hơn (3.35TB/s vs 2.04TB/s). A100 vẫn thắng về $/token cho workload legacy.
TTFT là gì và sao quan trọng?+
Time-to-first-token: thời gian user chờ trước khi thấy ký tự đầu của response. Quan trọng nhất cho UX chat. Trên 1 giây cảm giác broken. Speculative decoding, prompt caching, và prefix sharing đều giảm TTFT. H200 và B200 cắt TTFT 40% so H100.
Batching ảnh hưởng chi phí mỗi triệu token sao?+
Single-stream H100 + Llama 4 70B tốn khoảng $0.45/M output token. Ở batch=8, giảm còn $0.12/M (rẻ gần 4×). vLLM, TGI, và SGLang đều hỗ trợ continuous batching. Calculator mô phỏng batch=1, 4, 8, 16.
GPU consumer (RTX 4090, 5090) có dùng được cho inference?+
Cho model lên đến 30B param quantize int4, có. RTX 5090 (32GB) chạy Llama 4 8B ở 180 token/giây với chi phí điện amortized dưới $0.05/giờ. Không dùng được cho 70B+ nếu không 4-bit quant + offload. Đường rẻ cho dev và side project.
Inference engine nào nên dùng 2026 — vLLM, TGI, hay SGLang?+
vLLM có continuous batching và prompt caching tốt nhất. SGLang thắng cho structured output và prompt phức tạp. TGI production-hardened nhất (HF). Cho pure throughput, vLLM. Cho chat latency-sensitive, SGLang. Calculator giả định default vLLM.