Question 1

¿Cuánto cuesta una app RAG típica al mes en 2026?

Accepted Answer

Para 1M docs, 10k queries/día, con reranker: unos $40 vector DB + $30 reranker + $90 LLM = $160/mes total. Suma $15 one-time de embedding del corpus. Sin reranker, baja a $130/mes. La calculadora lo arma stack por stack.

Question 2

¿Cómo se reparte el coste RAG entre embedding, vector DB y generation?

Accepted Answer

En RAG knowledge-base típico: embedding 5% one-time, vector DB 25% recurrente, generation 60% recurrente, reranker 10% si va. Generation domina a alto volumen; vector DB domina con corpus grande + queries bajas. La calculadora muestra tu split.

Question 3

¿Debo usar reranker en mi pipeline RAG?

Accepted Answer

Sí si la precisión importa más que 200ms de latencia. Cohere Rerank 3 a $1/1k searches mejora calidad 15–30% re-puntuando 50 chunks recuperados a top-5. Para UX chat vale la pena. Para RAG batch (reportes nocturnos), siempre rerank.

Question 4

¿Cuántos chunks recupero por query RAG?

Accepted Answer

Recupera 20–50, rerank a 5–10, manda al LLM. Menos de 10 puede perder la respuesta; más de 10 al LLM infla input y diluye atención. La calculadora multiplica chunks × tokens-por-chunk en coste de generation.

Question 5

¿El prompt cache ayuda mucho con el coste RAG?

Accepted Answer

Masivamente. Si tu system prompt + few-shot son estables (típico 4–8k tokens), hits de cache cortan input Anthropic 90%, OpenAI 50%, Google 75%. Cache hit rate steady-state real en RAG es 70–85%. Mueve el slider y observa.

Question 6

¿Cuándo RAG es más barato que fine-tuning?

Accepted Answer

Bajo 10M tokens/mes o cuando el conocimiento cambia semanalmente, RAG gana. Sobre 50M con conocimiento estable que cabe en el prompt, fine-tune de modelo pequeño suele ganar 2–5× total. La mayoría queda en RAG por simplicidad operativa.

Componente	Proveedor	Mensual
Embed (one-time amortizado)	OpenAI 3-small	$5
Vector DB (10M chunks)	Pinecone Serverless	$40
Reranker (300k queries)	Cohere Rerank 3	$30
Generation (Sonnet 4.6)	Anthropic	$90
Generation w/ 70% cache hit	Anthropic	$28
Total con cache + rerank		$103 / mes

Calculadora Costo Total RAG

Desglose de costo mensual

Qué hace esta calculadora

Stack RAG completo

Desglose per-componente

Toggle reranker

Modelado prompt cache

Coste per-query

Modelado chunk strategy

Comparación rápida

Cómo usar esta calculadora

Por qué usar esta calculadora

Preguntas frecuentes