Calculateur
Calculateur Coût Total RAG
Facture RAG tout-en-un — embedding + vector DB + reranker + génération LLM. Branchez docs et requêtes/jour pour le stack mensuel complet.
Tarifs actualisés:
Le AITOT RAG Total Cost calculator estime coût mensuel pour stack RAG complet — embedding (one-time + recurring), vector DB storage + queries, reranker optionnel, LLM generation.
Une RAG typique avec 1M docs, 10k queries/jour, reranker on coûte ~$160/mois: $40 vector DB + $30 reranker + $90 LLM generation. Generation domine high query volume; vector DB domine corpus large + faible query.
Toggle prompt caching pour couper generation 50-90% — system prompts stables ont cache hit 70-85%. Reranker Cohere Rerank 3 à $1/1k searches améliore qualité 15-30%.
Total mensuel
$913
Coût embed unique
$6
Par requête
$0.0061
Total année 1
$10,956
Répartition du coût mensuel
Facture RAG = embedding query + vector DB + reranker (optionnel) + génération LLM. Au-delà de 50k requêtes/jour, la génération domine. À petite échelle, les minimums du vector DB dominent.
Ce que fait ce calculateur
Stack RAG complet
Embedding + vector DB + reranker + generation dans une facture.
Breakdown per-composant
Voir exactement quel line item est le plus gros contributeur.
Toggle reranker
Cohere Rerank 3. Ajoute $0.001/query mais améliore qualité 15-30%.
Modélisation prompt cache
System prompts stables 70-85% cache hits.
Coût per-query
Surface $ par RAG query — critique pour unit economics.
Modélisation chunk strategy
Toggle chunks/doc et chunks retrieved.
Comparaison rapide
Coût RAG mensuel @ 1M docs, 10k queries/jour
| Composant | Fournisseur | Mensuel |
|---|---|---|
| Embed (one-time amortisé) | OpenAI 3-small | $5 |
| Vector DB (10M chunks) | Pinecone Serverless | $40 |
| Reranker (300k queries) | Cohere Rerank 3 | $30 |
| Generation (Sonnet 4.6) | Anthropic | $90 |
| Generation w/ 70% cache hit | Anthropic | $28 |
| Total avec cache + rerank | $103 / mois |
Sans prompt caching, generation seul est $90+. Cache est le plus gros levier.
Comment utiliser ce calculateur
Calculez stack RAG mensuel — embed + vector DB + reranker + generation.
- 1
Entrez corpus + chunks
Documents × chunks/doc.
- 2
Set query volume
Queries par jour.
- 3
Toggle reranker
Cohere Rerank 3 ajoute $0.001/query mais améliore qualité 15-30%.
- 4
Set cache hit rate
System prompts stables hit 70-85%. Coupe generation 50-90%.
Pourquoi utiliser ce calculateur
- ✓Stack complet — pas seulement LLM
- ✓Toggle reranker
- ✓Modélisation prompt cache
- ✓Unit economics per-query
- ✓9 vector DB + 22 LLM fournisseurs
- ✓Sans login