AITOT

Calculateur

Calculateur Coût Total RAG

Facture RAG tout-en-un — embedding + vector DB + reranker + génération LLM. Branchez docs et requêtes/jour pour le stack mensuel complet.

Tarifs actualisés:

Le AITOT RAG Total Cost calculator estime coût mensuel pour stack RAG complet — embedding (one-time + recurring), vector DB storage + queries, reranker optionnel, LLM generation.

Une RAG typique avec 1M docs, 10k queries/jour, reranker on coûte ~$160/mois: $40 vector DB + $30 reranker + $90 LLM generation. Generation domine high query volume; vector DB domine corpus large + faible query.

Toggle prompt caching pour couper generation 50-90% — system prompts stables ont cache hit 70-85%. Reranker Cohere Rerank 3 à $1/1k searches améliore qualité 15-30%.

Total mensuel

$913

Coût embed unique

$6

Par requête

$0.0061

Total année 1

$10,956

Répartition du coût mensuel

Embedding query (Voyage AI voyage-3)
0%$0
Re-embed refresh (0.25×/mo)
0%$2
Vector DB (Pinecone Serverless (s1))
0%$3
Reranker (Cohere Rerank 3)
33%$300
Generation (Anthropic Claude Haiku 4.5)
67%$608

Facture RAG = embedding query + vector DB + reranker (optionnel) + génération LLM. Au-delà de 50k requêtes/jour, la génération domine. À petite échelle, les minimums du vector DB dominent.

Ce que fait ce calculateur

Stack RAG complet

Embedding + vector DB + reranker + generation dans une facture.

Breakdown per-composant

Voir exactement quel line item est le plus gros contributeur.

Toggle reranker

Cohere Rerank 3. Ajoute $0.001/query mais améliore qualité 15-30%.

Modélisation prompt cache

System prompts stables 70-85% cache hits.

Coût per-query

Surface $ par RAG query — critique pour unit economics.

Modélisation chunk strategy

Toggle chunks/doc et chunks retrieved.

Comparaison rapide

Coût RAG mensuel @ 1M docs, 10k queries/jour

ComposantFournisseurMensuel
Embed (one-time amortisé)OpenAI 3-small$5
Vector DB (10M chunks)Pinecone Serverless$40
Reranker (300k queries)Cohere Rerank 3$30
Generation (Sonnet 4.6)Anthropic$90
Generation w/ 70% cache hitAnthropic$28
Total avec cache + rerank$103 / mois

Sans prompt caching, generation seul est $90+. Cache est le plus gros levier.

Comment utiliser ce calculateur

Calculez stack RAG mensuel — embed + vector DB + reranker + generation.

  1. 1

    Entrez corpus + chunks

    Documents × chunks/doc.

  2. 2

    Set query volume

    Queries par jour.

  3. 3

    Toggle reranker

    Cohere Rerank 3 ajoute $0.001/query mais améliore qualité 15-30%.

  4. 4

    Set cache hit rate

    System prompts stables hit 70-85%. Coupe generation 50-90%.

Pourquoi utiliser ce calculateur

  • Stack complet — pas seulement LLM
  • Toggle reranker
  • Modélisation prompt cache
  • Unit economics per-query
  • 9 vector DB + 22 LLM fournisseurs
  • Sans login

Questions fréquentes

Combien coûte une app RAG typique par mois en 2026 ?+
Pour 1M docs, 10k queries/jour, avec reranker : environ $40 vector DB + $30 reranker + $90 LLM = $160/mois total. Ajoute $15 one-time embedding du corpus. Sans reranker, descend à $130/mois. Le calculateur l'arme stack par stack.
Comment se répartit le coût RAG entre embedding, vector DB et generation ?+
Pour un RAG knowledge-base typique : embedding 5% one-time, vector DB 25% récurrent, generation 60% récurrent, reranker 10% si utilisé. Generation domine à fort volume ; vector DB domine avec gros corpus + queries basses. Le calculateur montre ton split.
Faut-il un reranker dans mon pipeline RAG ?+
Oui si la précision compte plus que 200ms de latence. Cohere Rerank 3 à $1/1k searches améliore la qualité 15–30% en re-scorant 50 chunks récupérés à top-5. Pour UX chat ça vaut. Pour RAG batch (rapports nocturnes), toujours rerank.
Combien de chunks récupérer par query RAG ?+
Récupère 20–50, rerank à 5–10, passe au LLM. Moins de 10 risque de manquer la réponse ; plus de 10 au LLM gonfle l'input et dilue l'attention. Le calculateur multiplie chunks × tokens-par-chunk dans le coût generation.
Le prompt cache aide-t-il beaucoup le coût RAG ?+
Massivement. Si ton system prompt + few-shot sont stables (typiquement 4–8k tokens), les hits cache coupent l'input Anthropic 90%, OpenAI 50%, Google 75%. Le cache hit rate steady-state réel en RAG est 70–85%. Ajuste le slider et observe.
Quand RAG est-il moins cher que fine-tuning ?+
Sous 10M tokens/mois ou quand le knowledge change hebdo, RAG gagne. Au-dessus de 50M avec knowledge stable qui tient dans le prompt, fine-tune d'un petit modèle gagne souvent 2–5× total. La plupart des apps prod restent en RAG pour la simplicité opérationnelle.