Question 1

Berapa biaya app RAG tipikal per bulan 2026?

Accepted Answer

Untuk 1M dokumen, 10k query/hari, dengan reranker: sekitar $40 vector DB + $30 reranker + $90 LLM generation = $160/bulan total. Tambah $15 sekali embedding corpus. Tanpa reranker, turun ke $130/bulan. Kalkulator membangun stack-per-stack.

Question 2

Bagaimana split biaya RAG antara embedding, vector DB, dan generation?

Accepted Answer

Untuk RAG knowledge-base tipikal: embedding 5% sekali, vector DB 25% recurring, generation 60% recurring, reranker 10% jika dipakai. Generation dominasi di query volume tinggi; vector DB dominasi di corpus besar + query rendah. Kalkulator tampilkan split untuk skala Anda.

Question 3

Apakah perlu reranker di pipeline RAG?

Accepted Answer

Ya jika presisi lebih penting dari 200ms latency. Cohere Rerank 3 di $1/1k search biasanya tingkatkan kualitas answer 15–30% dengan re-score 50 chunk retrieved ke top-5. Untuk UX chat, tax latency layak. Untuk RAG batch (laporan overnight), selalu rerank.

Question 4

Berapa chunk sebaiknya retrieve per query RAG?

Accepted Answer

Retrieve 20–50 chunk, rerank ke 5–10, pass ke LLM. Retrieve kurang dari 10 risiko miss answer; pass lebih dari 10 ke LLM bloating input cost dan dilute attention. Kalkulator kali retrieved-chunks × token-per-chunk ke biaya generation.

Question 5

Apakah prompt caching bantu biaya RAG signifikan?

Accepted Answer

Masif. Jika system prompt + few-shot Anda stabil (tipikal 4–8k token), prompt cache hit potong biaya input Anthropic 90%, OpenAI 50%, Google 75%. Real-world steady-state RAG cache hit rate 70–85%. Geser slider lihat tagihan turun.

Question 6

Kapan RAG lebih murah dari fine-tuning?

Accepted Answer

Di bawah 10M token bulan atau saat knowledge berubah mingguan, RAG menang. Di atas 50M dengan knowledge stabil yang muat di prompt, fine-tuning model lebih kecil sering kalahkan total RAG 2–5×. Mayoritas app produksi tetap di RAG karena kesederhanaan operasional.

Komponen	Provider	Bulanan
Embed (one-time amortized)	OpenAI 3-small	$5
Vector DB (10M chunks)	Pinecone Serverless	$40
Reranker (300k queries)	Cohere Rerank 3	$30
Generation (Sonnet 4.6)	Anthropic	$90
Generation w/ 70% cache hit	Anthropic	$28
Total dengan cache + rerank		$103 / bulan

Kalkulator Biaya Total RAG

Rincian biaya bulanan

Yang dilakukan kalkulator ini

Stack RAG penuh

Breakdown per-komponen

Toggle reranker

Modeling prompt cache

Cost per-query

Modeling chunk strategy

Perbandingan cepat

Cara menggunakan kalkulator

Kenapa pakai kalkulator ini

Pertanyaan yang sering diajukan