AITOT

Calculadora

Calculadora Costo Total RAG

Factura RAG todo-en-uno — embedding + vector DB + reranker + generación LLM. Mete docs y queries/día para ver el stack mensual completo.

Precios actualizados:

El AITOT RAG Total Cost calculator estima coste mensual de stack RAG completo — embedding (one-time + recurring), vector DB storage + queries, reranker opcional, y LLM generation. Inputs: corpus, chunks/doc, queries/día, chunks retrieved/query, generation tokens.

Una RAG típica con 1M docs, 10k queries/día, reranker on cuesta ~$160/mes: $40 vector DB + $30 reranker + $90 LLM generation. Generation domina a alto query volume; vector DB a corpus grande + baja query.

Toggle prompt caching para cortar generation 50-90% — system prompts estables (típico 4-8k tokens) tienen cache hit 70-85%. Reranker Cohere Rerank 3 a $1/1k searches mejora calidad 15-30%.

Total mensual

$913

Costo embed único

$6

Por query

$0.0061

Total año 1

$10,956

Desglose de costo mensual

Embedding query (Voyage AI voyage-3)
0%$0
Re-embed refresh (0.25×/mo)
0%$2
Vector DB (Pinecone Serverless (s1))
0%$3
Reranker (Cohere Rerank 3)
33%$300
Generation (Anthropic Claude Haiku 4.5)
67%$608

Factura RAG = embedding query + vector DB + reranker (opcional) + generación LLM. Por encima de 50k queries/día domina la generación. A pequeña escala dominan los mínimos del vector DB.

Qué hace esta calculadora

Stack RAG completo

Embedding + vector DB + reranker + generation en una factura.

Desglose per-componente

Ve exactamente qué line item es el mayor contributor.

Toggle reranker

Cohere Rerank 3. Añade $0.001/query pero mejora calidad 15-30%.

Modelado prompt cache

System prompts estables 70-85% cache hits — toggle para ver coste real.

Coste per-query

Surface $ por RAG query — crítico para unit economics.

Modelado chunk strategy

Toggle chunks/doc y chunks retrieved para optimizar.

Comparación rápida

Coste RAG mensual @ 1M docs, 10k queries/día

ComponenteProveedorMensual
Embed (one-time amortizado)OpenAI 3-small$5
Vector DB (10M chunks)Pinecone Serverless$40
Reranker (300k queries)Cohere Rerank 3$30
Generation (Sonnet 4.6)Anthropic$90
Generation w/ 70% cache hitAnthropic$28
Total con cache + rerank$103 / mes

Sin prompt caching, generation solo es $90+. Cache es la mayor palanca.

Cómo usar esta calculadora

Calcula stack RAG mensual — embed + vector DB + reranker + generation.

  1. 1

    Entra corpus + chunks

    Documentos × chunks/doc. Típico: 1 doc = 5-20 chunks a 500 tokens.

  2. 2

    Set query volume

    Queries por día. Mayoría apps producción cachea 30-50% antes de llegar al LLM.

  3. 3

    Toggle reranker

    Cohere Rerank 3 añade $0.001/query pero mejora calidad 15-30%. Usualmente vale.

  4. 4

    Set cache hit rate

    System prompts estables hit 70-85%. Corta generation 50-90% en Anthropic.

Por qué usar esta calculadora

  • Stack completo — no solo LLM
  • Toggle reranker
  • Modelado prompt cache
  • Unit economics per-query
  • 9 vector DB + 22 LLM proveedores
  • Sin login

Preguntas frecuentes

¿Cuánto cuesta una app RAG típica al mes en 2026?+
Para 1M docs, 10k queries/día, con reranker: unos $40 vector DB + $30 reranker + $90 LLM = $160/mes total. Suma $15 one-time de embedding del corpus. Sin reranker, baja a $130/mes. La calculadora lo arma stack por stack.
¿Cómo se reparte el coste RAG entre embedding, vector DB y generation?+
En RAG knowledge-base típico: embedding 5% one-time, vector DB 25% recurrente, generation 60% recurrente, reranker 10% si va. Generation domina a alto volumen; vector DB domina con corpus grande + queries bajas. La calculadora muestra tu split.
¿Debo usar reranker en mi pipeline RAG?+
Sí si la precisión importa más que 200ms de latencia. Cohere Rerank 3 a $1/1k searches mejora calidad 15–30% re-puntuando 50 chunks recuperados a top-5. Para UX chat vale la pena. Para RAG batch (reportes nocturnos), siempre rerank.
¿Cuántos chunks recupero por query RAG?+
Recupera 20–50, rerank a 5–10, manda al LLM. Menos de 10 puede perder la respuesta; más de 10 al LLM infla input y diluye atención. La calculadora multiplica chunks × tokens-por-chunk en coste de generation.
¿El prompt cache ayuda mucho con el coste RAG?+
Masivamente. Si tu system prompt + few-shot son estables (típico 4–8k tokens), hits de cache cortan input Anthropic 90%, OpenAI 50%, Google 75%. Cache hit rate steady-state real en RAG es 70–85%. Mueve el slider y observa.
¿Cuándo RAG es más barato que fine-tuning?+
Bajo 10M tokens/mes o cuando el conocimiento cambia semanalmente, RAG gana. Sobre 50M con conocimiento estable que cabe en el prompt, fine-tune de modelo pequeño suele ganar 2–5× total. La mayoría queda en RAG por simplicidad operativa.