Question 1

Combien coûte une app RAG typique par mois en 2026 ?

Accepted Answer

Pour 1M docs, 10k queries/jour, avec reranker : environ $40 vector DB + $30 reranker + $90 LLM = $160/mois total. Ajoute $15 one-time embedding du corpus. Sans reranker, descend à $130/mois. Le calculateur l'arme stack par stack.

Question 2

Comment se répartit le coût RAG entre embedding, vector DB et generation ?

Accepted Answer

Pour un RAG knowledge-base typique : embedding 5% one-time, vector DB 25% récurrent, generation 60% récurrent, reranker 10% si utilisé. Generation domine à fort volume ; vector DB domine avec gros corpus + queries basses. Le calculateur montre ton split.

Question 3

Faut-il un reranker dans mon pipeline RAG ?

Accepted Answer

Oui si la précision compte plus que 200ms de latence. Cohere Rerank 3 à $1/1k searches améliore la qualité 15–30% en re-scorant 50 chunks récupérés à top-5. Pour UX chat ça vaut. Pour RAG batch (rapports nocturnes), toujours rerank.

Question 4

Combien de chunks récupérer par query RAG ?

Accepted Answer

Récupère 20–50, rerank à 5–10, passe au LLM. Moins de 10 risque de manquer la réponse ; plus de 10 au LLM gonfle l'input et dilue l'attention. Le calculateur multiplie chunks × tokens-par-chunk dans le coût generation.

Question 5

Le prompt cache aide-t-il beaucoup le coût RAG ?

Accepted Answer

Massivement. Si ton system prompt + few-shot sont stables (typiquement 4–8k tokens), les hits cache coupent l'input Anthropic 90%, OpenAI 50%, Google 75%. Le cache hit rate steady-state réel en RAG est 70–85%. Ajuste le slider et observe.

Question 6

Quand RAG est-il moins cher que fine-tuning ?

Accepted Answer

Sous 10M tokens/mois ou quand le knowledge change hebdo, RAG gagne. Au-dessus de 50M avec knowledge stable qui tient dans le prompt, fine-tune d'un petit modèle gagne souvent 2–5× total. La plupart des apps prod restent en RAG pour la simplicité opérationnelle.

Composant	Fournisseur	Mensuel
Embed (one-time amortisé)	OpenAI 3-small	$5
Vector DB (10M chunks)	Pinecone Serverless	$40
Reranker (300k queries)	Cohere Rerank 3	$30
Generation (Sonnet 4.6)	Anthropic	$90
Generation w/ 70% cache hit	Anthropic	$28
Total avec cache + rerank		$103 / mois

Calculateur Coût Total RAG

Répartition du coût mensuel

Ce que fait ce calculateur

Stack RAG complet

Breakdown per-composant

Toggle reranker

Modélisation prompt cache

Coût per-query

Modélisation chunk strategy

Comparaison rapide

Comment utiliser ce calculateur

Pourquoi utiliser ce calculateur

Questions fréquentes