AITOT

Calculator

Calculator Tổng Chi phí RAG

Hóa đơn RAG all-in-one — embed pass + vector DB + reranker + LLM generation. Nhập số doc và query/ngày để thấy stack tháng đầy đủ.

Pricing cập nhật:

AITOT RAG Total Cost calculator ước tính chi phí tháng cho stack RAG đầy đủ — embedding (một lần + recurring), vector DB storage + query, reranker tùy chọn, và LLM generation. Input: kích thước corpus, chunk/doc, query/ngày, chunk retrieve/query, token generation.

RAG knowledge-base điển hình với 1M doc, 10k query/ngày, có reranker tốn khoảng $160/tháng: $40 vector DB + $30 reranker + $90 LLM generation. Generation chi phối ở query volume cao; vector DB chi phối ở corpus lớn + query thấp. Calculator hiển thị split ở scale của bạn.

Toggle prompt cache để cắt chi phí generation 50–90% — cho system prompt ổn định (thường 4–8k token), cache hit rate steady-state thực tế 70–85%. Reranker trên Cohere Rerank 3 ở $1/1k search cải thiện chất lượng answer 15–30% bằng cách re-score 50 chunk retrieve xuống top-5.

Tổng tháng

$913

Chi phí embed một lần

$6

Mỗi query

$0.0061

Tổng năm 1

$10,956

Phân tích chi phí tháng

Embedding query (Voyage AI voyage-3)
0%$0
Re-embed refresh (0.25×/mo)
0%$2
Vector DB (Pinecone Serverless (s1))
0%$3
Reranker (Cohere Rerank 3)
33%$300
Generation (Anthropic Claude Haiku 4.5)
67%$608

RAG bill = embedding query + vector DB + reranker (tùy chọn) + LLM generation. Trên 50k query/ngày, generation chiếm chính. Quy mô nhỏ, vector DB minimum chiếm chính.

Calculator này làm được gì

Stack RAG đầy đủ

Embedding + vector DB + reranker + generation trong một hóa đơn.

Tách từng component

Xem line item nào đóng góp lớn nhất ở scale của bạn.

Toggle reranker

Mô phỏng Cohere Rerank 3. Cộng $0.001/query nhưng cải thiện chất lượng 15–30%.

Mô phỏng prompt cache

System prompt ổn định đạt 70–85% cache hit — toggle để xem chi phí thực.

Chi phí mỗi query

Hiển thị $ mỗi RAG query — quan trọng cho unit economics và pricing sản phẩm.

Mô phỏng chunk strategy

Toggle chunk/doc và chunk retrieve/query để tối ưu chi phí.

So sánh nhanh

Chi phí RAG tháng ở 1M doc, 10k query/ngày (app knowledge-base điển hình)

ComponentProviderTháng
Embed (một lần amortized)OpenAI 3-small$5
Vector DB (10M chunk)Pinecone Serverless$40
Reranker (300k query)Cohere Rerank 3$30
Generation (Sonnet 4.6)Anthropic$90
Generation w/ 70% cache hitAnthropic$28
Tổng với cache + rerank$103/tháng

Không có prompt cache, generation riêng đã $90+. Cache là đòn bẩy lớn nhất.

Cách dùng calculator

Tính chi phí tháng stack RAG đầy đủ — embed + vector DB + reranker + generation.

  1. 1

    Nhập corpus + chunk

    Documents × chunks/doc. Thông thường: 1 doc = 5–20 chunk @ 500 token.

  2. 2

    Đặt query volume

    Query/ngày. Phần lớn app production cache 30–50% query trước khi tới LLM.

  3. 3

    Toggle reranker

    Cohere Rerank 3 cộng $0.001/query nhưng cải thiện chất lượng 15–30%. Thường đáng giá.

  4. 4

    Đặt cache hit rate

    System prompt ổn định hit 70–85%. Cắt generation 50–90% trên Anthropic.

Vì sao nên dùng calculator này

  • Stack đầy đủ — không chỉ LLM
  • Toggle reranker
  • Mô phỏng prompt cache
  • Unit economics mỗi query
  • 9 vector DB + 22 LLM provider
  • Không cần đăng nhập

Câu hỏi thường gặp

App RAG điển hình tốn bao nhiêu mỗi tháng 2026?+
Cho 1M doc, 10k query/ngày, có reranker: khoảng $40 vector DB + $30 reranker + $90 LLM generation = $160/tháng tổng. Cộng $15 embed pass một lần cho corpus. Không reranker, giảm còn $130/tháng. Calculator build stack-by-stack.
Cách split chi phí RAG giữa embedding, vector DB, và generation?+
Cho RAG knowledge-base điển hình: embedding 5% một lần, vector DB 25% recurring, generation 60% recurring, reranker 10% nếu dùng. Generation chi phối ở query volume cao; vector DB chi phối ở corpus lớn + query thấp. Calculator hiển thị split cho scale của bạn.
Có nên dùng reranker trong pipeline RAG?+
Có nếu precision quan trọng hơn 200ms latency. Cohere Rerank 3 ở $1/1k search thường cải thiện chất lượng answer 15–30% bằng cách re-score 50 chunk retrieved xuống top-5. Cho UX chat, tax latency đáng. Cho RAG batch (báo cáo qua đêm), luôn rerank.
Bao nhiêu chunk nên retrieve mỗi RAG query?+
Retrieve 20–50 chunk, rerank xuống 5–10, pass lên LLM. Retrieve dưới 10 chunk risk miss answer; pass quá 10 lên LLM phồng chi phí input và pha loãng attention. Calculator nhân chunk retrieved × token/chunk vào chi phí generation.
Prompt cache có giúp chi phí RAG nhiều không?+
Khủng. Nếu system prompt + few-shot ổn định (thường 4–8k token), cache hit cắt input cost Anthropic 90%, OpenAI 50%, Google 75%. Cache hit rate steady-state RAG thực tế 70–85%. Toggle slider để xem hóa đơn giảm.
Khi nào RAG rẻ hơn fine-tuning?+
Dưới 10M token tháng hoặc khi knowledge thay đổi hàng tuần, RAG thắng. Trên 50M token với knowledge ổn định fit được prompt, fine-tune model nhỏ thường thắng tổng chi phí RAG 2–5×. Phần lớn app production stay trên RAG vì đơn giản vận hành.