AITOT
Blog

Precios Vector Database 2026: Pinecone vs Qdrant vs Supabase

Comparación práctica de costos de vector database 2026 — Pinecone, Qdrant, Weaviate, Supabase pgvector, Turbopuffer y más, con ejemplos reales de cargas RAG.

7 min read· By AITOT Editorial

El precio de vector database en 2026 abarca desde $0 (self-hosted Postgres pgvector) hasta $400+ por mes para el mismo workload RAG de 1 millón de vectores, dependiendo del provider, tasa de queries y elecciones de cuantización. Esta guía descompone nueve providers a través de cargas RAG realistas (100k a 100M vectores) para que elijas la correcta para tu escala. Para comparación en tiempo real con tus números exactos, usa nuestro Estimador de Costo Vector DB.

La vector DB suele ser 10–25% del recibo total de infraestructura de una app AI — lo suficientemente pequeño para ignorar a escala MVP, lo suficientemente grande para dominar decisiones a escala de producción. La buena noticia es que las matemáticas son más predecibles que el costo de tokens LLM: escala linealmente con vectores, dimensiones y queries.

¿Por qué exactamente cobra una vector database?

Tres partidas aparecen en cada factura vector DB:

  1. Storage — usualmente facturado por GB-mes de datos indexados. El overhead del índice (HNSW típicamente 1.3–1.5×) significa que los bytes almacenados son 30–50% más grandes que los vectores brutos.
  2. Reads — facturado por millón de queries, o agrupado en una tarifa por hora-nodo. La búsqueda híbrida (vector + keyword) suele costar 2× una query vector pura.
  3. Writes — facturado por millón de upserts. Re-indexar un documento hot-reload todo el grafo HNSW, así que updates frecuentes pueden dominar la factura.

Una cuarta partida oculta: mínimos de plan. La mayoría de providers gestionados tienen un piso $25–200/mes antes de que el billing por uso siquiera comience. Para experimentos chicos, ese piso es toda la factura.

¿Cuál es la vector DB más barata en cada escala?

El provider más barato depende fuertemente de la escala. Aquí un desglose en cuatro cargas RAG comunes, usando embeddings float32 1536-dim estilo OpenAI:

WorkloadVectoresQueries/díaProvider más baratoMensual aprox.
RAG pequeño (POC)100k5,000Self-hosted pgvector$20 (solo VM)
RAG pequeño (gestionado)100k5,000Supabase pgvector$25
RAG mediano1M50,000Pinecone Serverless$40–60
RAG grande10M200,000Turbopuffer$35–80
Enterprise100M1MTurbopuffer o self-host$300–800

Turbopuffer es el ganador sorpresa a escala grande porque su arquitectura object-storage intercambia latencia cold-read (200–500ms vs 30–80ms warm) por storage radicalmente más barato. Para RAG donde queries pueden esperar 500ms, ese intercambio casi siempre vale la pena.

¿Cómo factura realmente Pinecone Serverless?

Pinecone Serverless factura tres partidas separadas, luego suma:

  • Storage: $0.33 por GB-mes de datos indexados
  • Reads: $8.25 por millón de read units (1 RU ≈ 1 query × 1KB result)
  • Writes: $4.00 por millón de upserts

Un ejemplo trabajado para 1M vectores a 1536 dim con 50k queries/día y 5k writes/día:

storage: 1M × 1536 × 4 bytes × 1.4 overhead / (1024^3) = 8.0 GB
         8.0 × $0.33 = $2.64 por mes

reads:   50,000 × 30 = 1.5M reads / mes
         1.5 × $8.25 = $12.38 por mes

writes:  5,000 × 30 = 150k writes / mes
         0.15 × $4.00 = $0.60 por mes

total:   $15.62 por mes

Ese es el mínimo desnudo. En la práctica tendrás algún storage baseline de metadata y tags que añadan 10–30%. Aún así, Pinecone Serverless es genuinamente barato en esta escala — el chart de precios titular se ve caro hasta que haces la cuenta.

La trampa: sobre ~50M vectores, el pricing de reads domina. A 10M reads/mes contra un índice de 50M vectores, pagarías $82.50 solo por reads. Pinecone pod-based (o migrar a Qdrant / Turbopuffer) se vuelve más barato.

¿Es Qdrant más barato que Pinecone?

Depende enteramente de la tasa de queries.

Qdrant Cloud cobra por hora-nodo, no por query. Su nodo starter Hybrid Cloud (1GB, 1 vCPU) corre $0.105/hora = $76/mes. Obtienes queries ilimitadas dentro de la capacidad CPU del nodo (~50–100 QPS para vector search).

EscenarioPinecone ServerlessQdrant Cloud
1M vectores, 10k queries/día$7$76
1M vectores, 100k queries/día$40$76
1M vectores, 1M queries/día$260$76 (probablemente 2 nodos = $152)
10M vectores, 100k queries/día$90$200

Pinecone gana en cargas tasa-de-queries baja (porque storage es barato). Qdrant gana en tasa-queries alta (porque el pricing por-nodo predecible domina al pricing por-query pasado cierto umbral).

Tip pro: si ya corres Postgres, pgvector en Supabase o Neon es incluso más barato que Qdrant o Pinecone para menos de 10M vectores a tasa de queries moderada. El trade-off es recall (HNSW en Postgres es competitivo pero carece de algunos features avanzados), y simplicidad operacional (una DB por gestionar en vez de dos).

¿Cuánto puede ahorrar la cuantización?

Mucho. La precisión convierte directamente a costo de storage:

PrecisiónBytes/valorStorage vs float32Pérdida recall
float324100%baseline
float16250%~0.5%
int8125%~5%
binary0.1253%~15% (requiere rerank)

Para 100M vectores float32 1536-dim, el storage bruto es 570GB. Baja a int8 y son 142GB — a $0.33/GB en Pinecone son $190/mes vs $47/mes. Ahorra cuatro cifras anualmente.

La cuantización binary es la opción más agresiva pero requiere una pasada de reranking con los vectores float32 originales (o con un cross-encoder) para recall production-quality. Tools como el feature namespace de Pinecone, la API Rerank de Cohere y el reranker Voyage AI hacen esto práctico.

¿Cuándo deberías usar Postgres pgvector?

Decision tree pgvector:

  • Usa pgvector si tienes bajo 10M vectores, bajo 100 queries/seg, y ya corres Postgres. La simplicidad operacional le gana a cualquier feature nicho.
  • Usa una vector DB dedicada si tienes sobre 10M vectores, sobre 1,000 queries/seg, necesitas búsqueda híbrida sparse-dense o haces filtrado serio de metadata con alta cardinalidad.
  • Usa Turbopuffer si estás limitado por costo y toleras cold reads de 200–500ms. El backing object-storage es decisivo a escala grande.
  • Usa Weaviate / Qdrant si necesitas módulos integrados (CLIP, multi-vector, ACL multi-tenant) sin escribirlos tú.

El ecosistema pgvector maduró significativamente en 2024–2025. Indexación HNSW nativa, IVFFlat para cold storage, soporte half-precision e híbrido search integrado lo hacen competitivo para la mayoría de cargas RAG del mundo real. Los benchmarks pgvector v0.8 del equipo Supabase están dentro de 10–20% de vector DBs dedicadas para cargas bajo-10M-vectores.

¿Y MongoDB Atlas Vector Search y Redis Vector?

Ambas son buenas opciones "ya usamos esta database":

  • MongoDB Atlas Vector Search está agrupado en el pricing Atlas comenzando en M10 ($57/mes). Para equipos ya en MongoDB, la integración operacional y de query es genuinamente valiosa — filtrado JSON metadata con búsqueda vector en una query.
  • Redis Vector se incluye en el pricing Redis Cloud. Latencia de query sub-milisegundo es el feature principal; es la elección correcta para ad serving, recomendación y otros casos de uso ultra-baja-latencia.

Ninguna es la más barata en una escala específica, pero ambas pueden ser la elección correcta cuando "consolidar vendors" es más valioso que "minimizar costo por partida".

¿Cómo elijo realmente?

Usa esta secuencia de decisión:

  1. Estima conteo de vectores y tasa de queries para los próximos 12 meses, no solo el día uno del MVP. Las vector DBs son sticky — la migración es dolorosa.
  2. Estima tolerancia de cuantización corriendo un benchmark pequeño de recall con int8 vs float32 contra tu reranker real. La mayoría de equipos encuentra que ≤2% de pérdida de recall es aceptable.
  3. Elige por costo mensual total en tu objetivo 12 meses, no por precio titular. Usa nuestro Estimador de Costo Vector DB para meter números entre los 9 providers de una.
  4. Apila los factores cualitativos: ¿necesitas CLIP integrado / multi-tenancy / residencia EU GDPR / búsqueda híbrida?

Un patrón común en 2026 es storage de dos niveles: tier caliente en Pinecone o Qdrant para los últimos 30 días de contenido (tasa de queries alta), tier frío en Turbopuffer para archivos más viejos (queries raras, storage baratísimo). El cruce ahorra 40–60% en una factura RAG de producción real.

No sobre-optimices a escala MVP. La factura total de vector DB para una app AI chica probablemente está bajo $50/mes — tiempo de ingeniero gastado raspando esa factura es tiempo de ingeniero no gastado mejorando la calidad de retrieval, una palanca mucho más grande para éxito de producto.