Kalkulator
Benchmark & Biaya Inference
Ukur kecepatan dan biaya per juta token di hardware dan model berbeda.
Harga diperbarui:
AITOT Inference Benchmark memperkirakan tokens/detik dan biaya per juta output token untuk self-hosted inference di H100, H200, B200, A100, RTX 5090 — Llama 4, Qwen 3, Mistral, DeepSeek dengan vLLM, TGI, atau SGLang.
H100 menjalankan Llama 4 70B di ~95 token/detik single-stream, 380 token/detik batch=8. Dengan speculative decoding pakai Llama 4 8B sebagai draft, single-stream naik ke ~140 token/detik.
Biaya per M output token turun dengan batching — single-stream H100 + Llama 4 70B $0.45/M; batch=8 turun ke $0.12/M (hampir 4× lebih murah).
Termurah
DeepInfra
$69.00/bulan
Tercepat
SambaNova
580tok/d
| Host | Token/detik | TTFT | Waktu respons | $ / 1M out | Total / bulan |
|---|---|---|---|---|---|
| DeepInfra | 70 | 410 ms | 7.55 s | $0.60 | $69.00 |
| SambaNova | 580 | 110 ms | 0.97 s | $0.60 | $90.00 |
| Groq | 320 | 180 ms | 1.74 s | $0.79 | $98.50 |
| Cerebras | 450 | 120 ms | 1.23 s | $0.85 | $107.50 |
| Together | 92 | 320 ms | 5.75 s | $0.88 | $132.00 |
| Fireworks | 110 | 290 ms | 4.84 s | $0.90 | $135.00 |
| Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference | 85 | 380 ms | 6.26 s | $1.95 | $292.50 |
| Self-host (B200 ×4) | 165 | 220 ms | 3.25 s | $2.10 | $315.00 |
Angka pada batch=1 streaming-decode (UX chat). Batch back-end produksi dapat mencapai 5–20× token/detik lebih tinggi pada biaya per-token yang sama. Bandingkan dengan artificialanalysis.ai untuk data terbaru.
Yang dilakukan kalkulator ini
Token/detik model teratas
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.
Modeling batch size
Throughput dari batch=1 ke batch=32 dengan continuous batching.
Estimasi TTFT
Time-to-first-token dimodelkan — kritis untuk UX chat.
Speculative decoding
Toggle untuk lihat 1.5-2× speedup dengan draft-model.
Biaya per 1M output
GPU rental ÷ throughput = $/M output nyata.
vLLM, TGI, SGLang
Overhead engine dihitung; vLLM biasanya tercepat throughput.
Perbandingan cepat
Performa Llama 4 70B per GPU (vLLM, batch=8)
| GPU | Token/sec | TTFT | Cost/M out |
|---|---|---|---|
| RTX 5090 32GB (quant) | 110 | 420ms | $0.08 |
| A100 80GB | 210 | 180ms | $0.18 |
| H100 80GB | 380 | 95ms | $0.12 |
| H100 SXM + spec. | 540 | 90ms | $0.09 |
| H200 141GB | 480 | 60ms | $0.10 |
| B200 | 760 | 40ms | $0.08 |
Biaya asumsi pricing RunPod community; vLLM batched 8 concurrent.
Cara menggunakan kalkulator
Perkirakan token/sec dan biaya per M token untuk self-hosted LLM inference.
- 1
Pilih model
Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, atau Mistral.
- 2
Pilih GPU
H100 workhorse. H200/B200 throughput tertinggi. RTX 5090 dev murah.
- 3
Set batch concurrency
Batch=8 sweet spot production.
- 4
Aktifkan speculative decoding
Jika punya draft model kecil, toggle untuk 1.5-2× speedup.
Kenapa pakai kalkulator ini
- ✓Benchmark berdasarkan laporan vLLM + SGLang publik
- ✓5 kelas GPU dicakup
- ✓Overhead engine termasuk
- ✓TTFT dimodelkan
- ✓Speculative decoding termasuk
- ✓Diperbarui bulanan