Calculator
Benchmark & chi phí Inference AI
Đo tốc độ inference và chi phí trên 1 triệu token cho từng phần cứng (H100, A100, GPU consumer).
Pricing cập nhật:
AITOT Inference Benchmark calculator ước tính token/giây và chi phí mỗi 1M token output cho self-hosted inference trên H100, H200, B200, A100, RTX 5090 — chạy Llama 4, Qwen 3, Mistral, DeepSeek và các open-weight model với vLLM, TGI, hoặc SGLang.
H100 chạy Llama 4 70B ~95 token/giây single-stream, 380 token/giây batch=8. Với speculative decoding dùng Llama 4 8B làm draft model, single-stream lên ~140 token/giây. H100 nhanh hơn A100 trung bình 1.7×; H200 cắt TTFT 40% so với H100 nhờ memory bandwidth cao hơn.
Chi phí mỗi 1M token output giảm mạnh khi batch — single-stream H100 + Llama 4 70B là $0.45/M; batch=8 còn $0.12/M (rẻ gần 4×). Dùng calculator để xem khi nào self-host thắng hosted API ở volume + batch của bạn.
Rẻ nhất
DeepInfra
$69.00/tháng
Nhanh nhất
SambaNova
580tok/s
| Host | Token/giây | TTFT | Thời gian phản hồi | $ / 1M out | Tổng / tháng |
|---|---|---|---|---|---|
| DeepInfra | 70 | 410 ms | 7.55 s | $0.60 | $69.00 |
| SambaNova | 580 | 110 ms | 0.97 s | $0.60 | $90.00 |
| Groq | 320 | 180 ms | 1.74 s | $0.79 | $98.50 |
| Cerebras | 450 | 120 ms | 1.23 s | $0.85 | $107.50 |
| Together | 92 | 320 ms | 5.75 s | $0.88 | $132.00 |
| Fireworks | 110 | 290 ms | 4.84 s | $0.90 | $135.00 |
| Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference | 85 | 380 ms | 6.26 s | $1.95 | $292.50 |
| Self-host (B200 ×4) | 165 | 220 ms | 3.25 s | $2.10 | $315.00 |
Số liệu là batch=1 streaming-decode (UX chat). Batch backend production có thể đạt 5–20× tốc độ token/giây cao hơn với cùng giá/token. Đối chiếu với artificialanalysis.ai để có dữ liệu mới nhất.
Calculator này làm được gì
Token/giây cho model top
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS — đều có benchmark.
Mô phỏng batch size
Xem throughput scale từ batch=1 đến batch=32 với continuous batching.
Ước tính TTFT
Mô phỏng time-to-first-token — quan trọng cho UX chat.
Speculative decoding
Toggle để thấy speedup 1.5–2× với speculation dùng draft model.
Chi phí mỗi 1M output
Chi phí thuê GPU ÷ throughput = $/M output token thực.
vLLM, TGI, SGLang
Overhead engine đã tính sẵn; vLLM thường nhanh nhất cho throughput.
So sánh nhanh
Hiệu năng inference Llama 4 70B theo GPU (vLLM, batch=8)
| GPU | Token/giây | TTFT | Chi phí/M output |
|---|---|---|---|
| RTX 5090 32GB (quant) | 110 | 420ms | $0.08 |
| A100 80GB | 210 | 180ms | $0.18 |
| H100 80GB | 380 | 95ms | $0.12 |
| H100 SXM + spec. | 540 | 90ms | $0.09 |
| H200 141GB | 480 | 60ms | $0.10 |
| B200 | 760 | 40ms | $0.08 |
Chi phí tính theo giá RunPod community; vLLM batched 8 request đồng thời.
Cách dùng calculator
Ước tính token/giây và chi phí mỗi 1M token cho self-hosted LLM inference.
- 1
Chọn model
Chọn Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, hoặc Mistral. Tool đánh dấu cặp GPU thiếu VRAM.
- 2
Chọn GPU
H100 là workhorse. H200 hoặc B200 cho throughput cao nhất. RTX 5090 cho dev rẻ.
- 3
Đặt batch concurrency
Batch=8 là sweet spot production. Batch cao hơn tiết kiệm chi phí nhưng tăng latency.
- 4
Bật speculative decoding
Nếu có draft model nhỏ, toggle để có speedup 1.5–2× với cùng độ chính xác.
Vì sao nên dùng calculator này
- ✓Benchmark dựa trên báo cáo vLLM + SGLang public
- ✓Phủ 5 lớp GPU
- ✓Đã tính overhead engine
- ✓Mô phỏng TTFT, không chỉ throughput
- ✓Có speculative decoding
- ✓Refresh hàng tháng