Calculator
Benchmark & chi phí Inference AI
Đo tốc độ inference và chi phí trên 1 triệu token cho từng phần cứng (H100, A100, GPU consumer).
Benchmarks refreshed: 2026-05-01
Rẻ nhất
DeepInfra
$69.00/mo
Nhanh nhất
SambaNova
580tok/s
| Host | Token/giây | TTFT | Thời gian phản hồi | $ / 1M out | Total / mo |
|---|---|---|---|---|---|
| DeepInfra | 70 | 410 ms | 7.55 s | $0.60 | $69.00 |
| SambaNova | 580 | 110 ms | 0.97 s | $0.60 | $90.00 |
| Groq | 320 | 180 ms | 1.74 s | $0.79 | $98.50 |
| Cerebras | 450 | 120 ms | 1.23 s | $0.85 | $107.50 |
| Together | 92 | 320 ms | 5.75 s | $0.88 | $132.00 |
| Fireworks | 110 | 290 ms | 4.84 s | $0.90 | $135.00 |
| Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference | 85 | 380 ms | 6.26 s | $1.95 | $292.50 |
| Self-host (B200 ×4) | 165 | 220 ms | 3.25 s | $2.10 | $315.00 |
Numbers are batch=1 streaming-decode (chat UX). Production back-end batches can hit 5–20× higher tokens/sec at the same per-token cost. Cross-check against artificialanalysis.ai for the latest.
Câu hỏi thường gặp
Calculator chính xác đến đâu?+
Pricing lấy từ tài liệu chính thức của provider và refresh hàng tháng. Hóa đơn thực tế có thể chênh 5–15% do cache, batch và region.
Giá tính bằng USD?+
Đúng, tất cả giá đều theo USD theo billing chuẩn của provider.
Bao lâu cập nhật một lần?+
Bảng pricing được review và update vào ngày 1 mỗi tháng.
Có dùng để lập budget được không?+
Hãy coi như estimate. Với production, luôn validate bằng pilot 1 tuần với workload thật.