AITOT

Calculator

Benchmark & chi phí Inference AI

Đo tốc độ inference và chi phí trên 1 triệu token cho từng phần cứng (H100, A100, GPU consumer).

Benchmarks refreshed: 2026-05-01

Rẻ nhất

DeepInfra

$69.00/mo

Nhanh nhất

SambaNova

580tok/s

HostToken/giâyTTFTThời gian phản hồi$ / 1M outTotal / mo
DeepInfra70410 ms7.55 s$0.60$69.00
SambaNova580110 ms0.97 s$0.60$90.00
Groq320180 ms1.74 s$0.79$98.50
Cerebras450120 ms1.23 s$0.85$107.50
Together92320 ms5.75 s$0.88$132.00
Fireworks110290 ms4.84 s$0.90$135.00
Self-host (H100 SXM ×4, vLLM)

AWS p5 spot reference

85380 ms6.26 s$1.95$292.50
Self-host (B200 ×4)165220 ms3.25 s$2.10$315.00

Numbers are batch=1 streaming-decode (chat UX). Production back-end batches can hit 5–20× higher tokens/sec at the same per-token cost. Cross-check against artificialanalysis.ai for the latest.

Câu hỏi thường gặp

Calculator chính xác đến đâu?+
Pricing lấy từ tài liệu chính thức của provider và refresh hàng tháng. Hóa đơn thực tế có thể chênh 5–15% do cache, batch và region.
Giá tính bằng USD?+
Đúng, tất cả giá đều theo USD theo billing chuẩn của provider.
Bao lâu cập nhật một lần?+
Bảng pricing được review và update vào ngày 1 mỗi tháng.
Có dùng để lập budget được không?+
Hãy coi như estimate. Với production, luôn validate bằng pilot 1 tuần với workload thật.