Kalkulator
Kalkulator Biaya Total RAG
Tagihan RAG all-in-one — embedding + vector DB + reranker + generasi LLM. Masukkan dokumen dan query/hari untuk stack bulanan lengkap.
Harga diperbarui:
AITOT RAG Total Cost calculator memperkirakan biaya bulanan untuk stack RAG penuh — embedding (one-time + recurring), vector DB storage + queries, reranker opsional, LLM generation.
RAG knowledge-base tipikal dengan 1M docs, 10k queries/hari, reranker on biaya ~$160/bulan: $40 vector DB + $30 reranker + $90 LLM generation.
Toggle prompt caching potong generation 50-90% — system prompts stabil (tipikal 4-8k token) punya cache hit 70-85%. Reranker Cohere Rerank 3 di $1/1k searches tingkatkan kualitas 15-30%.
Total bulanan
$913
Biaya embed sekali
$6
Per query
$0.0061
Total tahun 1
$10,956
Rincian biaya bulanan
Tagihan RAG = embedding query + vector DB + reranker (opsional) + generasi LLM. Di atas 50k query/hari, generasi mendominasi. Pada skala kecil, minimum vector DB mendominasi.
Yang dilakukan kalkulator ini
Stack RAG penuh
Embedding + vector DB + reranker + generation dalam satu bill.
Breakdown per-komponen
Lihat tepat line item mana kontributor terbesar.
Toggle reranker
Cohere Rerank 3. Tambah $0.001/query tapi tingkatkan kualitas 15-30%.
Modeling prompt cache
System prompts stabil 70-85% cache hits.
Cost per-query
Surface $ per RAG query — kritis untuk unit economics.
Modeling chunk strategy
Toggle chunks/dok dan chunks retrieved.
Perbandingan cepat
Cost RAG bulanan @ 1M docs, 10k queries/hari
| Komponen | Provider | Bulanan |
|---|---|---|
| Embed (one-time amortized) | OpenAI 3-small | $5 |
| Vector DB (10M chunks) | Pinecone Serverless | $40 |
| Reranker (300k queries) | Cohere Rerank 3 | $30 |
| Generation (Sonnet 4.6) | Anthropic | $90 |
| Generation w/ 70% cache hit | Anthropic | $28 |
| Total dengan cache + rerank | $103 / bulan |
Tanpa prompt caching, generation saja $90+. Cache lever terbesar.
Cara menggunakan kalkulator
Hitung stack RAG bulanan — embed + vector DB + reranker + generation.
- 1
Masukkan corpus + chunks
Dokumen × chunks/dok.
- 2
Set query volume
Queries per hari.
- 3
Toggle reranker
Cohere Rerank 3 tambah $0.001/query tapi tingkatkan kualitas 15-30%.
- 4
Set cache hit rate
System prompts stabil hit 70-85%. Potong generation 50-90%.
Kenapa pakai kalkulator ini
- ✓Stack penuh — bukan hanya LLM
- ✓Toggle reranker
- ✓Modeling prompt cache
- ✓Unit economics per-query
- ✓9 vector DB + 22 LLM provider
- ✓Tanpa login