Question 1

App RAG điển hình tốn bao nhiêu mỗi tháng 2026?

Accepted Answer

Cho 1M doc, 10k query/ngày, có reranker: khoảng $40 vector DB + $30 reranker + $90 LLM generation = $160/tháng tổng. Cộng $15 embed pass một lần cho corpus. Không reranker, giảm còn $130/tháng. Calculator build stack-by-stack.

Question 2

Cách split chi phí RAG giữa embedding, vector DB, và generation?

Accepted Answer

Cho RAG knowledge-base điển hình: embedding 5% một lần, vector DB 25% recurring, generation 60% recurring, reranker 10% nếu dùng. Generation chi phối ở query volume cao; vector DB chi phối ở corpus lớn + query thấp. Calculator hiển thị split cho scale của bạn.

Question 3

Có nên dùng reranker trong pipeline RAG?

Accepted Answer

Có nếu precision quan trọng hơn 200ms latency. Cohere Rerank 3 ở $1/1k search thường cải thiện chất lượng answer 15–30% bằng cách re-score 50 chunk retrieved xuống top-5. Cho UX chat, tax latency đáng. Cho RAG batch (báo cáo qua đêm), luôn rerank.

Question 4

Bao nhiêu chunk nên retrieve mỗi RAG query?

Accepted Answer

Retrieve 20–50 chunk, rerank xuống 5–10, pass lên LLM. Retrieve dưới 10 chunk risk miss answer; pass quá 10 lên LLM phồng chi phí input và pha loãng attention. Calculator nhân chunk retrieved × token/chunk vào chi phí generation.

Question 5

Prompt cache có giúp chi phí RAG nhiều không?

Accepted Answer

Khủng. Nếu system prompt + few-shot ổn định (thường 4–8k token), cache hit cắt input cost Anthropic 90%, OpenAI 50%, Google 75%. Cache hit rate steady-state RAG thực tế 70–85%. Toggle slider để xem hóa đơn giảm.

Question 6

Khi nào RAG rẻ hơn fine-tuning?

Accepted Answer

Dưới 10M token tháng hoặc khi knowledge thay đổi hàng tuần, RAG thắng. Trên 50M token với knowledge ổn định fit được prompt, fine-tune model nhỏ thường thắng tổng chi phí RAG 2–5×. Phần lớn app production stay trên RAG vì đơn giản vận hành.

Component	Provider	Tháng
Embed (một lần amortized)	OpenAI 3-small	$5
Vector DB (10M chunk)	Pinecone Serverless	$40
Reranker (300k query)	Cohere Rerank 3	$30
Generation (Sonnet 4.6)	Anthropic	$90
Generation w/ 70% cache hit	Anthropic	$28
Tổng với cache + rerank		$103/tháng

Calculator Tổng Chi phí RAG

Phân tích chi phí tháng

Calculator này làm được gì

Stack RAG đầy đủ

Tách từng component

Toggle reranker

Mô phỏng prompt cache

Chi phí mỗi query

Mô phỏng chunk strategy

So sánh nhanh

Cách dùng calculator

Vì sao nên dùng calculator này

Câu hỏi thường gặp