Benchmark Inference AI 2026: H100 vs A100 vs B200 vs Hosted
Bandingkan 22 host inference 2026 — token/detik, latency, dolar per juta. Groq, Cerebras, SambaNova, Together, Fireworks, self-host H100/B200.
Performance inference AI 2026 mencakup spread 10× di model sama. Llama 4 70B jalan 580 token/detik di SambaNova vs 38 token/detik di Together AI hosted — model sama, hardware bawah berbeda total. Panduan ini benchmark 22 provider inference. Untuk math real-time, gunakan Kalkulator Benchmark Inference AI.
Aturan "Tercepat ≠ Termurah" apply tajam. Groq dan Cerebras hampir selalu tercepat tapi sering bukan termurah. SambaNova kadang manage keduanya.
Seberapa cepat Llama 4 70B 2026?
Output token/detik batch=1, tercepat pertama:
| Host | Token/detik | TTFT | Biaya/1M out |
|---|---|---|---|
| SambaNova | 580 | 110ms | $0,60 |
| Cerebras | 450 | 120ms | $0,85 |
| Groq | 320 | 180ms | $0,79 |
| B200 ×4 self-host | 165 | 220ms | $2,10 |
| Fireworks | 110 | 290ms | $0,90 |
| Together | 92 | 320ms | $0,88 |
| Self-host H100 ×4 (vLLM) | 85 | 380ms | $1,95 |
| DeepInfra | 70 | 410ms | $0,60 |
Provider inference mana 2026?
- Latency terendah chat UX — Groq, Cerebras, atau SambaNova.
- Termurah — DeepInfra ($0,60/M output) atau self-host Llama di GPU sewa.
- Balance tercepat dan termurah — SambaNova standout.
- Output model kualitas tertinggi — Fireworks atau Together.
- Pricing enterprise predictable — Reserved Together atau AWS Bedrock.
- Self-host untuk kontrol — vLLM di H100 SXM atau B200.
Pattern umum 2026: multi-host routing: Groq/SambaNova untuk chat user-facing, Together/Fireworks untuk batch back-end.
Formula dolar-per-juta-token?
$/M_output = host_pricing_per_1M_output_tokens
effective_$/M = $/M_output + (input_tokens/output_tokens) × $/M_input
monthly_cost = effective_$/M × output_tokens_per_month / 1.000.000
Contoh 1.000 input + 500 output token/request, 100k request/bulan:
Groq:
100k × 1000 × $0,59 / 1M = $59 input
100k × 500 × $0,79 / 1M = $39,5 output
Monthly: $99
Biaya tersembunyi inference?
- TTFT inflation context panjang. 32k token RAG context tambah 1–3 detik TTFT.
- Rate limit. 5–20 request/detik/account. Traffic spiky throttled.
- Cold start. Request pertama setelah 5+ menit idle 3–8× lebih lambat.
- Speculative decoding overhead. Beberapa provider tagih speculatively-decoded token. 5–15% bill.
- Request gagal tidak selalu refund. Stream half-completed dari network drop tagih token completed.
Kapan H100 vs B200 vs A100 untuk self-hosted?
- H100 SXM5 — sweet spot 2026 untuk serving 7B–70B model.
- B200 — menang untuk sustained high-volume. 2× throughput di 1,6× harga = 25% lebih murah/juta token.
- A100 80GB — hanya worth untuk fine-tune 7B dan embedding.
- H100 PCIe — 35% lebih murah SXM5 dengan 80% throughput.
- L40S — surprising competitive untuk sub-7B dan embedding.
Untuk pricing per tipe GPU, lihat Kalkulator Harga GPU.
Throughput scale dengan batch size?
| Batch size | Llama 4 70B H100 SXM ×4 | Effective $/M output |
|---|---|---|
| 1 (streaming) | 85 tok/detik | $1,95 |
| 8 | 580 tok/detik | $0,29 |
| 32 | 1.800 tok/detik | $0,094 |
| 64 (max) | 2.400 tok/detik | $0,071 |
Pipeline batch back-end bisa hit 7× throughput per dollar dari streaming chat. Together dan Fireworks offer endpoint "batch" terpisah di rate lebih rendah.
Yang datang berikutnya 2026?
- Normalisasi supply B200. Q3 2026 expect harga turun 30–40%.
- GB300 cluster availability. Blackwell Ultra 1KW akhir 2026.
- Kompetisi chip spesialis. AMD MI400, Trainium 3, Tenstorrent.
Refresh data benchmark inference tanggal 1 setiap bulan.