AITOT

Kalkulator

Benchmark & Biaya Inference

Ukur kecepatan dan biaya per juta token di hardware dan model berbeda.

Harga diperbarui:

AITOT Inference Benchmark memperkirakan tokens/detik dan biaya per juta output token untuk self-hosted inference di H100, H200, B200, A100, RTX 5090 — Llama 4, Qwen 3, Mistral, DeepSeek dengan vLLM, TGI, atau SGLang.

H100 menjalankan Llama 4 70B di ~95 token/detik single-stream, 380 token/detik batch=8. Dengan speculative decoding pakai Llama 4 8B sebagai draft, single-stream naik ke ~140 token/detik.

Biaya per M output token turun dengan batching — single-stream H100 + Llama 4 70B $0.45/M; batch=8 turun ke $0.12/M (hampir 4× lebih murah).

Termurah

DeepInfra

$69.00/bulan

Tercepat

SambaNova

580tok/d

HostToken/detikTTFTWaktu respons$ / 1M outTotal / bulan
DeepInfra70410 ms7.55 s$0.60$69.00
SambaNova580110 ms0.97 s$0.60$90.00
Groq320180 ms1.74 s$0.79$98.50
Cerebras450120 ms1.23 s$0.85$107.50
Together92320 ms5.75 s$0.88$132.00
Fireworks110290 ms4.84 s$0.90$135.00
Self-host (H100 SXM ×4, vLLM)

AWS p5 spot reference

85380 ms6.26 s$1.95$292.50
Self-host (B200 ×4)165220 ms3.25 s$2.10$315.00

Angka pada batch=1 streaming-decode (UX chat). Batch back-end produksi dapat mencapai 5–20× token/detik lebih tinggi pada biaya per-token yang sama. Bandingkan dengan artificialanalysis.ai untuk data terbaru.

Yang dilakukan kalkulator ini

Token/detik model teratas

Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, Mistral Large, GPT-OSS.

Modeling batch size

Throughput dari batch=1 ke batch=32 dengan continuous batching.

Estimasi TTFT

Time-to-first-token dimodelkan — kritis untuk UX chat.

Speculative decoding

Toggle untuk lihat 1.5-2× speedup dengan draft-model.

Biaya per 1M output

GPU rental ÷ throughput = $/M output nyata.

vLLM, TGI, SGLang

Overhead engine dihitung; vLLM biasanya tercepat throughput.

Perbandingan cepat

Performa Llama 4 70B per GPU (vLLM, batch=8)

GPUToken/secTTFTCost/M out
RTX 5090 32GB (quant)110420ms$0.08
A100 80GB210180ms$0.18
H100 80GB38095ms$0.12
H100 SXM + spec.54090ms$0.09
H200 141GB48060ms$0.10
B20076040ms$0.08

Biaya asumsi pricing RunPod community; vLLM batched 8 concurrent.

Cara menggunakan kalkulator

Perkirakan token/sec dan biaya per M token untuk self-hosted LLM inference.

  1. 1

    Pilih model

    Llama 4 8B/70B/405B, Qwen 3, DeepSeek V3, atau Mistral.

  2. 2

    Pilih GPU

    H100 workhorse. H200/B200 throughput tertinggi. RTX 5090 dev murah.

  3. 3

    Set batch concurrency

    Batch=8 sweet spot production.

  4. 4

    Aktifkan speculative decoding

    Jika punya draft model kecil, toggle untuk 1.5-2× speedup.

Kenapa pakai kalkulator ini

  • Benchmark berdasarkan laporan vLLM + SGLang publik
  • 5 kelas GPU dicakup
  • Overhead engine termasuk
  • TTFT dimodelkan
  • Speculative decoding termasuk
  • Diperbarui bulanan

Pertanyaan yang sering diajukan

Berapa token/detik H100 di Llama 4 70B?+
Sekitar 95 token/detik single-stream, 380 token/detik batch=8 pakai vLLM. Dengan speculative decoding via Llama 4 8B sebagai draft, single-stream naik ke ~140 token/detik. TTFT tipikal 280ms cold, 95ms warm.
H100 vs A100 — speedup nyata inference 2026?+
Untuk Llama 4 70B FP16: H100 ~1.7× lebih cepat (95 vs 56 tok/detik). Di long-context (>32k), H100 lebarkan jarak ke 2.4× karena memory bandwidth lebih tinggi. A100 masih menang $/token untuk workload legacy.
Apa itu TTFT dan kenapa penting?+
Time-to-first-token: berapa lama user tunggu sebelum lihat karakter pertama response. Krusial untuk UX chat. Di atas 1 detik terasa rusak. Speculative decoding, prompt caching, dan prefix sharing menguranginya. H200 dan B200 potong TTFT 40% vs H100.
Bagaimana batching memengaruhi biaya per juta token?+
Single-stream H100 + Llama 4 70B sekitar $0.45/M output. Di batch=8 turun ke $0.12/M (hampir 4× lebih murah). vLLM, TGI, SGLang dukung continuous batching. Kalkulator memodelkan batch=1, 4, 8, 16.
GPU consumer (RTX 4090, 5090) viable untuk inference?+
Untuk model hingga 30B quantize int4, ya. RTX 5090 (32GB) jalankan Llama 4 8B di 180 token/detik dengan biaya listrik amortized di bawah $0.05/jam. Tak viable untuk 70B+ tanpa 4-bit quant + offloading. Jalur murah untuk dev dan side project.
Engine inference mana di 2026 — vLLM, TGI, atau SGLang?+
vLLM continuous batching dan prompt caching terbaik. SGLang menang structured output dan prompt kompleks. TGI paling production-hardened (HF). Untuk throughput murni, vLLM. Untuk chat latency-sensitive, SGLang. Kalkulator asumsi default vLLM.