Calculator
Calculator Tổng Chi phí RAG
Hóa đơn RAG all-in-one — embed pass + vector DB + reranker + LLM generation. Nhập số doc và query/ngày để thấy stack tháng đầy đủ.
Pricing cập nhật:
AITOT RAG Total Cost calculator ước tính chi phí tháng cho stack RAG đầy đủ — embedding (một lần + recurring), vector DB storage + query, reranker tùy chọn, và LLM generation. Input: kích thước corpus, chunk/doc, query/ngày, chunk retrieve/query, token generation.
RAG knowledge-base điển hình với 1M doc, 10k query/ngày, có reranker tốn khoảng $160/tháng: $40 vector DB + $30 reranker + $90 LLM generation. Generation chi phối ở query volume cao; vector DB chi phối ở corpus lớn + query thấp. Calculator hiển thị split ở scale của bạn.
Toggle prompt cache để cắt chi phí generation 50–90% — cho system prompt ổn định (thường 4–8k token), cache hit rate steady-state thực tế 70–85%. Reranker trên Cohere Rerank 3 ở $1/1k search cải thiện chất lượng answer 15–30% bằng cách re-score 50 chunk retrieve xuống top-5.
Tổng tháng
$913
Chi phí embed một lần
$6
Mỗi query
$0.0061
Tổng năm 1
$10,956
Phân tích chi phí tháng
RAG bill = embedding query + vector DB + reranker (tùy chọn) + LLM generation. Trên 50k query/ngày, generation chiếm chính. Quy mô nhỏ, vector DB minimum chiếm chính.
Calculator này làm được gì
Stack RAG đầy đủ
Embedding + vector DB + reranker + generation trong một hóa đơn.
Tách từng component
Xem line item nào đóng góp lớn nhất ở scale của bạn.
Toggle reranker
Mô phỏng Cohere Rerank 3. Cộng $0.001/query nhưng cải thiện chất lượng 15–30%.
Mô phỏng prompt cache
System prompt ổn định đạt 70–85% cache hit — toggle để xem chi phí thực.
Chi phí mỗi query
Hiển thị $ mỗi RAG query — quan trọng cho unit economics và pricing sản phẩm.
Mô phỏng chunk strategy
Toggle chunk/doc và chunk retrieve/query để tối ưu chi phí.
So sánh nhanh
Chi phí RAG tháng ở 1M doc, 10k query/ngày (app knowledge-base điển hình)
| Component | Provider | Tháng |
|---|---|---|
| Embed (một lần amortized) | OpenAI 3-small | $5 |
| Vector DB (10M chunk) | Pinecone Serverless | $40 |
| Reranker (300k query) | Cohere Rerank 3 | $30 |
| Generation (Sonnet 4.6) | Anthropic | $90 |
| Generation w/ 70% cache hit | Anthropic | $28 |
| Tổng với cache + rerank | $103/tháng |
Không có prompt cache, generation riêng đã $90+. Cache là đòn bẩy lớn nhất.
Cách dùng calculator
Tính chi phí tháng stack RAG đầy đủ — embed + vector DB + reranker + generation.
- 1
Nhập corpus + chunk
Documents × chunks/doc. Thông thường: 1 doc = 5–20 chunk @ 500 token.
- 2
Đặt query volume
Query/ngày. Phần lớn app production cache 30–50% query trước khi tới LLM.
- 3
Toggle reranker
Cohere Rerank 3 cộng $0.001/query nhưng cải thiện chất lượng 15–30%. Thường đáng giá.
- 4
Đặt cache hit rate
System prompt ổn định hit 70–85%. Cắt generation 50–90% trên Anthropic.
Vì sao nên dùng calculator này
- ✓Stack đầy đủ — không chỉ LLM
- ✓Toggle reranker
- ✓Mô phỏng prompt cache
- ✓Unit economics mỗi query
- ✓9 vector DB + 22 LLM provider
- ✓Không cần đăng nhập