¿Cuál es el modelo embedding más barato en 2026?

Opciones hosted open-weight — BGE-M3 y bge-large-en en Together a $0,008/M tokens. Para commercial, Jina v3 a $0,012/M es más barato. Comparación: OpenAI text-embedding-3-small $0,02/M, Voyage 3 $0,06/M, OpenAI 3-large $0,13/M.

¿Vale la pena Voyage AI sobre OpenAI?

Para apps retrieval-heavy, frecuentemente sí. Voyage 3 rankea más alto que OpenAI 3-large en la mayoría de tasks MTEB 2025–2026 a ~mitad del costo. Voyage 3 Large vence a OpenAI 5–8% en benchmarks retrieval. Para general-purpose, OpenAI 3-small a $0,02/M es el value pick.

¿Cómo calculo costo embedding para mi corpus RAG?

Costo = total_tokens × refreshes_por_mes × tarifa_por_million + query_tokens × tarifa. Corpus 50M tokens refresh mensual con 5M query tokens/mes cuesta $1,10/mes en OpenAI 3-small o $3,30/mes en Voyage 3.

¿Qué son los embeddings Matryoshka?

Embeddings Matryoshka permiten truncar el vector output a una dimensión menor sin re-embedding. OpenAI 3-large (3072 dim) puede truncarse a 512 dim con ~5% recall loss, cortando storage vector DB 6×. Voyage v3 y Gemini Embedding también soportan.

¿Self-host modelos embedding?

Sobre 50M tokens/mes, sí. BGE-M3 o Nomic Embed en L40S a $0,99/hora puede embedear ~5M tokens/min, ~$0,001/M tokens — 8× más barato que opción hosted más barata. Bajo eso, APIs hosted ganan en simplicidad operacional.

¿Con qué frecuencia re-embedear corpus?

Solo cuando el corpus cambia o cambias modelo embedding. La mayoría de RAG re-embedea chunks individuales según docs cambian (continuo), no batch re-embed completo. Re-embed completo es para upgrade de modelo.

Blog

Precios Embeddings AI 2026: OpenAI vs Voyage vs Cohere vs Jina

Compara 17 modelos embedding por costo por 1M tokens en 2026 — OpenAI 3-small/large, Voyage 3, Cohere v3, Jina v4, BGE-M3, Nomic.

Updated 2026-05-116 min read· By AITOT Editorial

Los precios de embeddings AI en 2026 abarcan un rango 16× desde $0,008/M tokens en modelos open-weight hosted como BGE-M3 hasta $0,18/M en Voyage 3 Large. Embedding es la partida más barata en la mayoría de bills RAG, pero a tamaños corpus grandes (100M+ tokens) se vuelve un número real — y elegir mal tiene consecuencias compound porque re-embedear para cambiar después es caro. Esta guía compara 17 modelos. Para pricing tiempo real, usa nuestro Calculador de Costo de Embeddings AI.

¿Cómo se ven realmente los precios de embedding en 2026?

Costo por 1M tokens, más barato primero:

Modelo	$/M tokens	Dimensiones	Max input	Notas
Together BGE-M3	$0,008	1024	8192	Open-weight
Together bge-large-en	$0,008	1024	512
Fireworks Nomic Embed	$0,008	768	8192
Jina v3	$0,012	1024	8192	Configurable
Jina v4	$0,018	2048	32000	Configurable
OpenAI text-embedding-3-small	$0,02	1536	8191	Matryoshka
Voyage 3 Lite	$0,02	512	32000
AWS Titan Embed v2	$0,02	1024	8192	Matryoshka
Google text-embedding-005	$0,025	768	2048
Voyage 3	$0,06	1024	32000
Cohere embed-english-v3.0	$0,10	1024	512
Cohere embed-multilingual-v3.0	$0,10	1024	512
Mistral mistral-embed	$0,10	1024	8192
Google gemini-embedding-exp	$0,10	3072	8192	Configurable
OpenAI text-embedding-3-large	$0,13	3072	8191	Matryoshka
Voyage 3 Large	$0,18	1024	32000	Top MTEB
Voyage code-3	$0,18	1024	32000	Code-specialized

Para la mayoría de RAG producción, los sweet-spot picks son OpenAI 3-small a $0,02/M (capacidad amplia, bien soportado) y Voyage 3 a $0,06/M (mejor retrieval).

¿Qué modelo embedding usar en 2026?

Decision tree por caso de uso:

Retrieval general-purpose, inglés — OpenAI text-embedding-3-small $0,02/M. Ecosistema mejor soportado.
Contenido multilingüe — Cohere embed-multilingual-v3.0 $0,10/M, o Voyage 3 $0,06/M.
Code search — Voyage code-3 $0,18/M. Específicamente entrenado para code retrieval.
Mejor calidad retrieval a cualquier precio — Voyage 3 Large $0,18/M. Top de MTEB benchmark.
Self-host break-even (>50M tokens/mes) — BGE-M3 o Nomic Embed en GPU propia.
Documentos largos — Voyage 3 o Jina v4 a 32k token max input.
Residencia datos EU — Mistral mistral-embed $0,10/M.
Stack AWS-native — Titan Embed v2 $0,02/M. Bundled con Bedrock.

Patrón 2026 común es embeddings dos-tier: embedear el bulk del corpus con BGE-M3 barato o Jina v3, luego re-embedear solo el top 10% de tráfico con Voyage 3 Large premium retrieval. Ahorra 60–80% versus embedear todo con el modelo premium.

¿Cómo calcular el costo total embedding para corpus RAG?

La fórmula:

one_time = corpus_tokens × tarifa_por_million
monthly_refresh = corpus_tokens × refreshes_por_mes × tarifa
monthly_query = query_tokens_por_mes × tarifa
year_one = one_time + (monthly_refresh + monthly_query) × 12

Ejemplo: corpus 50M tokens (~50.000 docs), refresh mensual 25%, 5M query tokens/mes:

OpenAI 3-small ($0,02/M):
  One-time: 50M × $0,02 = $1,00
  Monthly refresh: 50M × 0,25 × $0,02 = $0,25/mes
  Monthly query: 5M × $0,02 = $0,10/mes
  Year 1: $1 + ($0,35 × 12) = $5,20

Voyage 3 Large ($0,18/M):
  Year 1: $46,80

La diferencia de precio headline es real pero pequeña en dólares absolutos. El costo real de elegir mal es re-embedear cuando cambias modelos — cambiar Cohere a Voyage 3 en corpus 50M tokens cuesta $5 en OpenAI 3-small. Trivial a menos que corpus sea 5B+ tokens.

¿Qué son embeddings Matryoshka y por qué importan?

Matryoshka representation learning entrena el modelo para que truncar el vector output en cualquier punto dé un embedding útil. Esto es enorme para costo de storage:

OpenAI text-embedding-3-large output 3072 dimensiones. Almacenar 1M vectores a 4 bytes = 11,7 GB.
Truncado a 512 dimensiones: 1,95 GB. Storage 6× más barato con 3–5% recall loss.
Truncado a 256: 977 MB. 12× más barato con 8–12% recall loss.

Modelos Matryoshka-compatibles 2026:

OpenAI text-embedding-3-small (1536 → 256/512/768/1024)
OpenAI text-embedding-3-large (3072 → 256/512/1024/1536)
Voyage 3 family (1024 → 128/256/512/768)
Google gemini-embedding-exp (3072 → 768/1536)
AWS Titan Embed v2 (1024 → 256/512)
Jina v3 y v4 (configurable en tiempo de request)

Cohere v3 family y Mistral NO soportan truncation. Si anticipas downsizing, elige de la lista configurable.

¿Qué costos ocultos vienen con embeddings?

Cuatro líneas que los teams subestiman:

Compute de chunking strategy. Algoritmos chunking (semantic chunking) necesitan sus propios LLM calls. Presupuesta $5–$20/M corpus tokens.
Re-embedding al cambiar modelos. Adoptar mejor modelo significa re-embedear todo el corpus. Plan ~$10 por 100M tokens.
Inflación de embedding query. Cada query usuario se embedea. Naive embedea raw query (~30 tokens), pero hybrid search y HyDE re-escriben queries a 300+ tokens — 10× costo.
Storage en vector DB. Costo embed es trivial vs storage vectores. Corpus 50M tokens → ~50M vectores → 200GB a float32 1536-dim.

Para bill RAG completo incluyendo vector DB, retrieval, reranking, generation, ver nuestro Calculador de Costo Total RAG. Para forecasting embedding-only, usa el Calculador Costo Embeddings.

¿Cuándo tiene sentido self-host embeddings?

Break-even:

Piso hosted API: $0,008/M (BGE-M3 en Together)
L40S GPU rentado $0,99/hora: ~5M tokens/min = 300M tokens/hora
Costo efectivo hosted en L40S: $0,99 ÷ 300 = $0,003/M tokens

Rentar GPU para self-host es ~3× más barato que API más barata. Pero:

GPU corre independientemente de si embedeas. Si solo tienes 10M tokens/mes, pagas $713 idle GPU para $30 de trabajo.
Break-even ~50M tokens/mes.
Overhead operacional real. Plan 0,1–0,2 FTE para endpoint embedding producción.

Para jobs batch (re-embedear corpus on-demand), spinea GPU solo para el job: 100M tokens toma ~20 min en L40S, $0,33. API hosted costaría $0,80–$26 según modelo. Gran win para batches one-off.

¿Con qué frecuencia cambiar modelo embedding?

Menos a menudo de lo que pensarías. El costo es el pase de re-embed. Guideline:

Quédate si tu modelo actual está dentro 10% del best en tu benchmark retrieval específico.
Cambia cuando un nuevo modelo ofrece >15% mejora EN tu benchmark Y tu corpus es lo bastante pequeño para que costo re-embed sea bajo 5% del budget RAG anual.
Adopta nuevos modelos en paralelo unas semanas antes de cortar — mantén ambos vector indexes, A/B retrieval.

El Calculador Costo Embeddings compara 17 modelos con tu corpus size específico y query rate. Para decisiones arquitectura RAG más amplias, el Vector DB Cost Estimator y Calculador Costo Total RAG extienden el análisis al full stack.

Los precios embedding cambian más lento que LLM token pricing — shifts mayores ~2 veces al año. AITOT refresca calculadora el primero de cada mes.