Question 1

Berapa token/detik H100 di Llama 4 70B?

Accepted Answer

Sekitar 95 token/detik single-stream, 380 token/detik batch=8 pakai vLLM. Dengan speculative decoding via Llama 4 8B sebagai draft, single-stream naik ke ~140 token/detik. TTFT tipikal 280ms cold, 95ms warm.

Question 2

H100 vs A100 — speedup nyata inference 2026?

Accepted Answer

Untuk Llama 4 70B FP16: H100 ~1.7× lebih cepat (95 vs 56 tok/detik). Di long-context (>32k), H100 lebarkan jarak ke 2.4× karena memory bandwidth lebih tinggi. A100 masih menang $/token untuk workload legacy.

Question 3

Apa itu TTFT dan kenapa penting?

Accepted Answer

Time-to-first-token: berapa lama user tunggu sebelum lihat karakter pertama response. Krusial untuk UX chat. Di atas 1 detik terasa rusak. Speculative decoding, prompt caching, dan prefix sharing menguranginya. H200 dan B200 potong TTFT 40% vs H100.

Question 4

Bagaimana batching memengaruhi biaya per juta token?

Accepted Answer

Single-stream H100 + Llama 4 70B sekitar $0.45/M output. Di batch=8 turun ke $0.12/M (hampir 4× lebih murah). vLLM, TGI, SGLang dukung continuous batching. Kalkulator memodelkan batch=1, 4, 8, 16.

Question 5

GPU consumer (RTX 4090, 5090) viable untuk inference?

Accepted Answer

Untuk model hingga 30B quantize int4, ya. RTX 5090 (32GB) jalankan Llama 4 8B di 180 token/detik dengan biaya listrik amortized di bawah $0.05/jam. Tak viable untuk 70B+ tanpa 4-bit quant + offloading. Jalur murah untuk dev dan side project.

Question 6

Engine inference mana di 2026 — vLLM, TGI, atau SGLang?

Accepted Answer

vLLM continuous batching dan prompt caching terbaik. SGLang menang structured output dan prompt kompleks. TGI paling production-hardened (HF). Untuk throughput murni, vLLM. Untuk chat latency-sensitive, SGLang. Kalkulator asumsi default vLLM.

Host	Token/detik	TTFT	Waktu respons	$ / 1M out	Total / bulan
DeepInfra	70	410 ms	7.55 s	$0.60	$69.00
SambaNova	580	110 ms	0.97 s	$0.60	$90.00
Groq	320	180 ms	1.74 s	$0.79	$98.50
Cerebras	450	120 ms	1.23 s	$0.85	$107.50
Together	92	320 ms	5.75 s	$0.88	$132.00
Fireworks	110	290 ms	4.84 s	$0.90	$135.00
Self-host (H100 SXM ×4, vLLM) AWS p5 spot reference	85	380 ms	6.26 s	$1.95	$292.50
Self-host (B200 ×4)	165	220 ms	3.25 s	$2.10	$315.00

GPU	Token/sec	TTFT	Cost/M out
RTX 5090 32GB (quant)	110	420ms	$0.08
A100 80GB	210	180ms	$0.18
H100 80GB	380	95ms	$0.12
H100 SXM + spec.	540	90ms	$0.09
H200 141GB	480	60ms	$0.10
B200	760	40ms	$0.08

Benchmark & Biaya Inference

Yang dilakukan kalkulator ini

Token/detik model teratas

Modeling batch size

Estimasi TTFT

Speculative decoding

Biaya per 1M output

vLLM, TGI, SGLang

Perbandingan cepat

Cara menggunakan kalkulator

Kenapa pakai kalkulator ini

Pertanyaan yang sering diajukan