Tổng Chi Phí RAG 2026: Embed + Lưu + Retrieve + Generate
Tính chi phí hạ tầng RAG thực tế 2026 — embedding + vector DB + reranker + LLM generation. Kịch bản từ 100k đến 100M document.
App RAG production năm 2026 tốn $40–$5.000+/tháng tùy corpus size, query volume và lựa chọn component. Bill có 4 phần tương tác: pass embedding + vector database + reranker tùy chọn + LLM generation. Hầu hết team underestimate 2–3× vì chỉ tính generation cost. Bài này đi qua full stack với ví dụ ở 4 tier scale. Cho forecast real-time, dùng Calculator Tổng Chi phí RAG.
RAG là kiến trúc app LLM dominant 3 năm qua. Toán chi phí đã ổn định đủ để budget tự tin — nhưng chỉ nếu tính cả 4 layer.
Chi phí RAG thực tế ở các scale 2026?
Bốn kịch bản reference dùng mid-tier (Voyage 3 + Pinecone Serverless + Cohere Rerank 3 + Claude Haiku 4.5):
| Scale | Doc | Query/ngày | Bill tháng |
|---|---|---|---|
| Nhỏ (POC/MVP) | 10.000 | 1.000 | $48 |
| Trung (startup) | 100.000 | 10.000 | $290 |
| Lớn (mid-market) | 1.000.000 | 50.000 | $1.420 |
| Enterprise | 10.000.000 | 200.000 | $6.800 |
Scale roughly tuyến tính với query volume trên sàn plan-minimum, và sub-tuyến tính với corpus size.
Switch sang mix rẻ nhất (Jina v3 + pgvector + không reranker + Gemini Flash) cắt 40–60%. Mix premium (OpenAI 3-large + Qdrant Cloud + Voyage Rerank + Claude Sonnet 4.6) tăng 3–4×.
Layer nào dominate RAG bill?
Phụ thuộc hoàn toàn vào scale:
Ở scale MVP (10k doc, 1k query/ngày):
- Vector DB: 50% (plan minimum)
- Generation: 30%
- Embedding: 10%
- Reranker: 10%
Dominate: sàn vector DB. Hầu hết provider có minimum $20–$80/tháng.
Ở scale trung (100k doc, 10k query/ngày):
- Generation: 50%
- Vector DB: 30%
- Reranker: 15%
- Embedding: 5%
Dominate: generation. Đây là chỗ chọn model bắt đầu quan trọng nhất.
Ở scale lớn (1M doc, 50k query/ngày):
- Generation: 65%
- Vector DB: 20%
- Reranker: 12%
- Embedding: 3%
Dominate: generation mạnh. Swap generation model là lever cost cao nhất.
Ở scale enterprise (10M+ doc, 200k+ query/ngày):
- Generation: 70%
- Vector DB: 18%
- Reranker: 10%
- Embedding: 2%
Dominate: vẫn generation. Lúc này fine-tune base model nhỏ trở nên hấp dẫn.
Làm sao cắt bill RAG một nửa?
Ba move impact cao nhất theo thứ tự:
1. Swap generation model (lever lớn nhất)
Với hầu hết RAG, Claude Haiku 4.5 hoặc Gemini 2.5 Flash cho 85–95% chất lượng GPT-5 hoặc Sonnet 4.6 ở 10–25% chi phí.
| Model | Input/M | Output/M | So với GPT-5 |
|---|---|---|---|
| Gemini 2.5 Flash | $0,30 | $2,50 | 3% chi phí |
| Claude Haiku 4.5 | $0,80 | $4,00 | 12% chi phí |
| GPT-5 mini | $0,40 | $1,60 | 5% chi phí |
| Claude Sonnet 4.6 | $3,00 | $15,00 | 50% chi phí |
| GPT-5 | $10,00 | $30,00 | reference |
2. Thêm reranker để dùng ít chunk
Hầu hết RAG retrieve top-10 chunk và nhồi vào context. Với reranker pass, drop xuống top-3 ở recall bằng hoặc tốt hơn. Cắt context token 70%, giảm cả generation cost và latency.
So sánh chi phí 1 query:
- Không reranker: top-10 × 200 token = 2.000 input token
- Có reranker ($0,002/query): retrieve top-20, rerank, giữ top-3 = 600 input token
Trên Claude Haiku $0,80/M input: $0,0016 vs $0,0005/query — tiết kiệm 70%. Phí reranker $0,002 thêm lại chỉ ~$0,0015 net. Reranker tiết kiệm tiền sau khi trả phí nhỏ.
3. Quantize vector
Lưu vector ở int8 thay vì float32 cắt vector DB storage 75% với 5% recall loss điển hình (reranker recover phần lớn). Index 10M vector trên Pinecone là chênh lệch giữa $100/tháng storage và $25/tháng.
Hỗ trợ trên Pinecone, Qdrant, Weaviate, Turbopuffer. Không hỗ trợ trên pgvector default config (cần setup extra) hoặc MongoDB Atlas.
Công thức chi phí RAG?
Công thức đầy đủ:
embedding_query_monthly = (queries × query_tokens / 1M) × embed_$/M
vector_db_monthly = max(provider_minimum, storage_cost + read_cost)
reranker_monthly = queries × reranker_$/search (nếu dùng)
generation_monthly = queries × (
(query_tokens + retrieved_chunks × chunk_tokens) × gen_input_$/M +
output_tokens × gen_output_$/M
) / 1M
total_monthly = embedding_query + vector_db + reranker + generation
Ví dụ: 100.000 doc (1.000 token mỗi, 5 chunk = 500k chunk), 10.000 query/ngày, retrieve 5 chunk/query, có reranker:
Setup: 100M corpus token, 500k chunk (200 token mỗi), 300k query/tháng
Embedding query: 300k × 50 token × $0,06/M = $0,90/tháng
Vector DB (Pinecone Serverless): ~$45/tháng
Reranker (Cohere): 300k × $0,002 = $600/tháng
Generation (Claude Haiku 4.5):
Input/query: 50 + 5×200 = 1050 token
Output/query: 400 token
Per query: 1050/M × $0,80 + 400/M × $4,00 = $0,0024
Monthly: 300k × $0,0024 = $720
Tổng: $1.366/tháng
Phí reranker $600 lớn — đáng giá CHỈ nếu giảm chunk retrieve từ 10 xuống 5 đưa input context cost xuống đủ. Trong case này tiết kiệm ~$720/tháng generation, nên reranker tự trả.
Khi nào RAG rẻ hơn fine-tuning?
Decision matrix ở volume điển hình:
| LLM query/tháng | RAG thắng | Fine-tune thắng |
|---|---|---|
| <100k | ✅ thường | hiếm |
| 100k–1M | ✅ thường | chỉ cho task chuyên biệt |
| 1M–10M | tùy | ✅ thường |
| >10M | hiếm | ✅ thường |
Guideline thực tế: bắt đầu với RAG, làm app hoạt động, đo query volume thực. Nếu hit 5M+ query/tháng và 80% query tương tự cấu trúc (FAQ-style, customer support), fine-tune base model nhỏ và giảm/loại bỏ RAG layer cho query đó.
Pattern thắng 2026: fine-tune cho style/tone/structure, RAG cho fact/data hiện tại. Dùng cả hai. Model fine-tune cần ít context/query (vì style baked in), giảm generation cost 30–50%.
Chi phí ẩn RAG?
Sáu khoản bất ngờ:
- Chunking compute. Semantic chunking với LLM tốn $5–$20/triệu corpus token. Thường bỏ qua trong budget.
- Retrieval thất bại. ~5–15% query không trả về chunk relevant. Hầu hết app vẫn gửi LLM fallback — generation cost lãng phí.
- Re-embed khi đổi model. Switch Cohere sang Voyage trên corpus 50M token là $10–$30 embed cost cộng 10–30 phút compute.
- Hybrid search overhead. Thêm BM25 sparse search vào dense retrieval gấp đôi vector DB read cost.
- Observability. LangSmith hoặc Helicone tracing thêm $50–$200/tháng full-trace logging ở scale.
- Cold start latency. Request đầu sau giai đoạn yên tĩnh mất 3–8× lâu hơn do load model. User cảm nhận như broken.
Cho full bill gồm các khoản ẩn này, dùng Calculator Tổng Chi phí RAG. Cho drill component cụ thể, dùng Embeddings Cost, Vector DB Cost, Token Pricing.
Kiến trúc RAG cost-efficient 2026?
Kiến trúc chuẩn 2026:
- Embed với OpenAI text-embedding-3-small hoặc Voyage 3 (mid-cost, hỗ trợ tốt)
- Lưu trong Pinecone Serverless cho <10M vector, Qdrant Cloud cho 10M+
- Retrieve top-20 với hybrid search (dense + sparse BM25)
- Rerank với Cohere Rerank 3 xuống top-3
- Generate với Claude Haiku 4.5 hoặc Gemini 2.5 Flash cho hầu hết query
- Escalate lên Sonnet 4.6 hoặc GPT-5 chỉ cho query failed/low-confidence
Stack này cho RAG chất lượng production ở $0,005–$0,015/query tùy độ dài response, scale clean từ 10k đến 1M+ query/tháng.
Cho math đầy đủ ở corpus size và query volume chính xác, Calculator Tổng Chi phí RAG cắm mọi biến số một chỗ. AITOT refresh component pricing ngày 1 mỗi tháng.