Calculadora
Calculadora Costo Total RAG
Factura RAG todo-en-uno — embedding + vector DB + reranker + generación LLM. Mete docs y queries/día para ver el stack mensual completo.
Precios actualizados:
El AITOT RAG Total Cost calculator estima coste mensual de stack RAG completo — embedding (one-time + recurring), vector DB storage + queries, reranker opcional, y LLM generation. Inputs: corpus, chunks/doc, queries/día, chunks retrieved/query, generation tokens.
Una RAG típica con 1M docs, 10k queries/día, reranker on cuesta ~$160/mes: $40 vector DB + $30 reranker + $90 LLM generation. Generation domina a alto query volume; vector DB a corpus grande + baja query.
Toggle prompt caching para cortar generation 50-90% — system prompts estables (típico 4-8k tokens) tienen cache hit 70-85%. Reranker Cohere Rerank 3 a $1/1k searches mejora calidad 15-30%.
Total mensual
$913
Costo embed único
$6
Por query
$0.0061
Total año 1
$10,956
Desglose de costo mensual
Factura RAG = embedding query + vector DB + reranker (opcional) + generación LLM. Por encima de 50k queries/día domina la generación. A pequeña escala dominan los mínimos del vector DB.
Qué hace esta calculadora
Stack RAG completo
Embedding + vector DB + reranker + generation en una factura.
Desglose per-componente
Ve exactamente qué line item es el mayor contributor.
Toggle reranker
Cohere Rerank 3. Añade $0.001/query pero mejora calidad 15-30%.
Modelado prompt cache
System prompts estables 70-85% cache hits — toggle para ver coste real.
Coste per-query
Surface $ por RAG query — crítico para unit economics.
Modelado chunk strategy
Toggle chunks/doc y chunks retrieved para optimizar.
Comparación rápida
Coste RAG mensual @ 1M docs, 10k queries/día
| Componente | Proveedor | Mensual |
|---|---|---|
| Embed (one-time amortizado) | OpenAI 3-small | $5 |
| Vector DB (10M chunks) | Pinecone Serverless | $40 |
| Reranker (300k queries) | Cohere Rerank 3 | $30 |
| Generation (Sonnet 4.6) | Anthropic | $90 |
| Generation w/ 70% cache hit | Anthropic | $28 |
| Total con cache + rerank | $103 / mes |
Sin prompt caching, generation solo es $90+. Cache es la mayor palanca.
Cómo usar esta calculadora
Calcula stack RAG mensual — embed + vector DB + reranker + generation.
- 1
Entra corpus + chunks
Documentos × chunks/doc. Típico: 1 doc = 5-20 chunks a 500 tokens.
- 2
Set query volume
Queries por día. Mayoría apps producción cachea 30-50% antes de llegar al LLM.
- 3
Toggle reranker
Cohere Rerank 3 añade $0.001/query pero mejora calidad 15-30%. Usualmente vale.
- 4
Set cache hit rate
System prompts estables hit 70-85%. Corta generation 50-90% en Anthropic.
Por qué usar esta calculadora
- ✓Stack completo — no solo LLM
- ✓Toggle reranker
- ✓Modelado prompt cache
- ✓Unit economics per-query
- ✓9 vector DB + 22 LLM proveedores
- ✓Sin login